推荐 序 


最 近 的 这 几 年 ， 我 们 见证 了 大 数据 和 人 工 智能 如 何 推动 企业 的 转型 和 升级 。 大 数据 的 获取 、 处 理 和 运营 逐渐 融入 不 同 规模 企业 的 日 常 业务 中 ， 并 成 为 它们 的 创新 引擎 。 之 前 我 们 就 已 经 看 到 Google 的 广 
告 业务 ， 它 背后 存在 许多 大 数据 的 技术 作为 支撑 ， 因 此 ， 它 能 够 比较 精确 地 预测 在 什么 时 候 给 你 推荐 什么 内 容 的 广告 。 时 至 今日 ， 这 样 的 大 数据 技术 越 来 越 多 地 应 用 到 生活 中 的 各 个 领域 ， 包 括 电 商 、 爹 
旅游 、 健 康 ， 甚 至 是 游戏 和 娱乐 产业 。 
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不 过 ， 在 利用 大 数据 技术 创新 的 时 候 ， 人 们 往往 面临 这 样 的 困惑 : 对 于 某 类 技术 ， 如 何 找到 合适 的 应 用 场景 ?反之 亦 然 。 所 以 ， 无 论 是 在 微软 还 是 金山 时 ， 我 们 都 非常 强调 将 科研 成 果 转变 为 实际 的 产 
品 的 过 程 。 在 创新 的 同时 ， 需 要 找到 合理 的 产品 解决 方案 和 定位 。 本 书 的 作者 黄 申 曾经 在 微软 亚洲 研究 院 工 作 ， 从 事 机 器 学 习 相 关 的 研究 。 之 后 他 加 入 了 eBay 中 国 等 多 家 电子 商务 公司 ， 对 于 大 数据 技术 在 
电 商 领域 的 应 用 有 着 自己 独到 的 见解 。 相 信 本 书 能 够 从 电 商 业务 的 需求 出 发 ， 解 析 技 术 实 战 的 难点 ， 探 讨 大 数据 和 商业 的 结合 之 道 ， 帮 助 大 家 打造 更 多 实用 型 的 创新 产品 。 


张 宏 江 先生 ， 源 码 资本 合伙 人 ， 前 金山 软件 CEO、 前 微软 亚太 研发 集团 CTO 
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为 什么 要 写 这 本 书 

















首先 要 感谢 机 械 工业 出 版 社 华章 公司 的 编辑 们 ， 在 他 们 的 大 力 支持 下 ， 我 于 2016 年 出 版 了 《大 数据 架构 商业 之 路 : 从 业务 需求 到 技术 方案 》 一 书 ， 并 获得 了 良好 的 销售 额 和 口碑 。 不 少 读者 主动 和 我 联 
系 ， 表 示 从 书 中 学 习 到 了 如 何 使 用 大 数据 的 知识 ， 来 制定 合理 的 技术 方案 。 能 够 让 读者 从 书 中 获 益 ， 我 也 感到 非常 欣慰 。 与 此 同时 ， 也 有 部 分 读者 表示 对 于 技术 的 细节 很 感 兴趣 ， 对 此 书 未 能 包含 实现 部 分 
深 感 遗憾 。 对 此 ， 我 一 直 在 犹 隐 是 否 需 要 重新 写 一 版 ， 包 含 更 多 的 实战 内 容 。 因 为 《大 数据 架构 商业 之 路 : 从 业务 需求 到 技术 方案 》 一 书 的 定位 是 最 大 程度 地 弥补 业务 需求 和 技术 方案 之 间 的 空白 ， 针 对 的 
读者 主要 是 互联 网 公司 的 技术 管理 人 员 、 产 品 经 理 、 初 级 的 架构 师 等 。 如 果 直 接 加 入 过 多 的 技术 细节 ， 可 能 会 导致 该 书 的 定位 不 清 ， 让 读者 难以 获得 最 佳 的 阅读 体验 。 













































































与 本 书 的 策划 编辑 杨 老 师 再 三 讨论 之 后 ， 我 决定 不 在 原 书 中 加 入 更 多 的 实现 部 分 ， 而 是 重新 撰写 一 本 兄弟 篇 。 这 本 全 新 的 书 ， 仍 然 会 沿用 前 作 的 故事 背景 和 应 用 场景 ， 不 过 读者 对 象 改 为 资深 的 程序 
员 、 算 法 工程 师 、 数 据 科 学 家 和 系统 架构 师 。 因 此 ， 新 作 将 大 幅 缩减 基础 知识 的 详细 介绍 以 及 业务 需求 的 逐步 分 析 ， 而 是 直接 进入 实战 的 主题 ， 包 括 系统 架构 、 算 法 设计 ， 甚 至 是 重要 的 代码 部 分 。 当 然 ， 
我 也 不 希望 该 书 全 由 代码 堆砌 而 成 ， 因 此 主要 针对 核心 代码 进行 了 讲解 。 全 部 的 实例 代码 会 以 其 他 形式 来 提供 。 















































虽然 定位 有 所 不 同 ， 但 是 我 仍然 希望 保持 前 作 深 入 浅 出 的 特点 。 





“ 易 读 易 懂 。 黄 小 明和 杨 大 宝 的 创业 故事 在 稍 作 修改 的 基础 之 上 得 以 保留 ， 继 续 使 用 生动 的 案例 和 形象 的 比喻 来 解读 难点 ， 降 低 理解 的 门槛 。 


“ 可 实践 性 强 。 本 书 选取 了 电子 商务 的 平台 ， 通 过 分 享 大 量 实践 才能 积累 的 宝贵 经 验 和 重点 代码 ， 最 大 程度 地 弥补 业务 需求 和 技术 方案 之 间 的 空白 。 与 此 同时 ， 针 对 频繁 升级 的 开源 软件 ， 我 也 采用 了 
2016 年 年 底 到 2017 年 年 初 最 新 的 版 本 。 因 此 ， 部 分 代码 甚至 可 作为 中 小 公司 创业 起 步 的 参考 模板 。 这 有 利于 技术 人 员 针 对 不 同 的 业务 需求 ， 规 划 更 为 合理 的 技术 方案 。 








最 后 ， 我 们 囊 心 希望 本 书 成 为 相关 领域 技术 专家 的 良师益友 ， 大 家 在 阅读 之 后 ， 对 电 商 大 数据 的 实践 能 有 更 加 深入 的 理解 ， 并 对 自己 所 从 事 的 项 目 有 所 神 益 。 














读者 对 象 





根据 本 书 撰写 的 起 心动 念 ， 我 们 觉得 其 内 容 适 合 如 下 的 读者 。 
“ 大 数据 相关 领域 的 程序 开发 者 和 技术 骨干 。 从 本 书 中 ， 他 们 可 以 看 到 常见 的 互联 网 公司 从 创业 初期 到 中 期 ， 应 该 怎样 设计 数据 平台 、 如 何 解 决 技术 上 的 难题 ， 才 能 最 终 满足 业务 需求 。 


“ 中 小 互联 网 创业 公司 的 数据 科学 家 或 者 算法 工程 师 。 算 法 是 数据 平台 的 一 个 关键 因素 。 最 近 几 年 ， 人 工 智 能 、 机 器 学 习 乃 至 深度 学 习 都 是 学 术 界 和 工业 界 的 一 大 热点 ， 而 数据 科学 家 也 成 为 受 人 追捧 
的 职业 。 合 理 地 运用 智能 算法 将 从 很 大 程度 上 节约 重复 劳动 的 成 本 ， 提 高 效率 和 转化 率 ， 最 终 增加 商业 的 价值 。 


“ 架构 工程 师 。 架 构 是 数据 平台 的 另 一 个 关键 因素 ,很 多 刚刚 从 院 校 毕业 、 工 作 没 多 久 的 朋友 ， 学 了 一 身 的 本 领 ， 对 新 技术 也 很 有 热情 ， 可 惜 没有 太 多 实践 的 机 会 。 本 书 中 的 案例 ， 浓 缩 了 不 少 业 界 实 
践 的 经 验 和 心得 ， 如 能 融会 吐 通 ， 对 他 们 的 工作 将 有 很 大 帮助 。 同 时 ， 和 覆盖 面 较 广 的 技术 课题 概述 ， 也 为 他 们 继续 深入 研究 提供 了 方向 和 可 能 。 





























总 之 ， 本 书 适合 钻研 实现 细节 的 程序 员 、 工 程 师 和 算法 专家 。 和 前 作 的 侧重 点 有 所 不 同 ， 本 书 并 不 适合 作为 入 门 教程 使 用 。 因 此 建议 没有 相关 基础 知识 的 读者 ， 读 完 前 作 之 后 再 来 阅读 此 书 。 
如 何 阅读 本 书 





























本 书 介绍 了 一 些 主流 技术 在 商业 项 目 中 的 应 用 ， 包 括 机 器 学 习 中 的 分 类 、 聚 类 和 线性 回归 ， 搜 索引 警 ， 推 荐 系统 ， 用 户 行为 跟踪 ， 架 构 设计 的 基本 理念 及 常用 的 消息 和 缓存 机 制 。 在 这 个 过 程 中 ， 我 们 
有 机 会 实践 R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm 等 系统 。 如 前 所 述 ， 本 书 最 大 的 特色 就 是 ， 从 商业 需求 出 发 演变 到 合理 的 技术 方案 和 实现 ， 因 此 根据 不 同 
的 应 用 场景 、 不 同 的 数据 集合 、 不 同 的 进 阶 难度 ， 我 们 为 读者 提供 了 反复 温习 和 加 深 印 象 的 机 会 。 






























































勘误 和 支持 











众所周知 ， 大 数据 的 发 展 实在 是 太 快 了 。 可 能 就 在 你 阅读 这 段 文字 的 同时 ， 又 有 一 项 新 的 技术 诞生 了 ，N 项 技术 升级 了 ，M 项 技术 被 淘汰 了 。 再 加 之 笔者 的 水 平 有 限 ， 书 中 难免 会 出 现 一 些 不 够 准确 或 
遗漏 的 地 方 ， 居 请 读者 通过 如 下 的 渠道 积极 建议 和 荐 正 ， 我 们 很 期 待 能 够 收 到 你 们 的 真 执 反 馈 。 


QQ: 36638279 
微 信 : 18616692855 
邮箱 : s_ huang790228@hotmail.com 


Linkedln: https://cn.linkedin.com/in/shuang790228 


致谢 

















首先 要 感谢 上 海 交通 大 学 和 俞 勇 教授 ， 你 们 给 予 我 不 断 学 习 的 机 会 ， 带 领 我 进入 了 大 数据 的 世界 。 同 时 ， 感 谢 阿里 云 的 高 级 总 监 芒 贵 荣 ， 你 的 指导 让 我 树立 了 良好 的 科研 态度 。 






































还 要 感 澳 微软 亚洲 研究 院 、eBay 中 国 研发 中 心 、 沃 尔 玛 1 号 店 、 大 润 发 飞 牛 网 和 IBM 中 国 研发 中 心 ， 在 这 些 公司 十 多 年 的 实战 经 验 让 我 收获 颇 丰 ， 也 为 本 书 的 铸就 打下 了 坚实 的 基础 。 




















感谢 曾经 的 微软 战友 陈 正 、 孙 建 涛 、Ling Bao、 曾 华军 、 张 本 宇 、 沈 拌 、 刘 宁 、 严 峻 、 曹 云 波 、 王 琼 华 、 康 亚 滨 、 胡 健 、 季 世 等 ，eBay 的 战友 因 伟 、 王 强 、 王 戏 、 沈 丹 、Yongzheng Zhang、 
Catherine Baudin、Alvaro Bolivar、Xiaodi Zhang、 吴 晓 元 、 周 洋 、 胡 文彦 、 宋 荣 、 刘 文 、Lily Yu 等 ， 沃 尔 玛 1 号 店 的 战友 韩 军 、 王 欣 磊 、 胡 茂 华 、 付 艳 超 、 张 烛 强 、 黄 哲 鱼 、 沙 燕 霖 、 郭 占星 、 腑 阐 、 
邵 汉 成 、 张 唱 、 胡 裔 、 印 仔 松 、 孙 灵 飞 、 凌 昱 、 王 善良 、 廖 川 、 杨 平 、 余 迁 、 周 航 、 吴 敏 、 李 峰 ， 熊 健 等 ， 大 润 发 飞 牛 网 的 战友 王 俊杰 、 陈 俞 安 、 蔡 伯 环 、 陈 慧 文 、 夏 吉 吉 、 文 燕 军 、 杨 立 生 、 张 飞 、 代 
伟 、 陈 静 、 赵 瑜 、 李 航 等 ，IBM 的 战友 李 伟 、 谢 欣 、 周 健 、 马 坚 、 刘 钧 、 唐 显 莉 等 。 要 感谢 的 同仁 太 多 ， 如 有 遗漏 敬 请 谅解 ， 很 怀念 和 你 们 并 肩 作战 的 日 子 ， 那 段 时 间 让 我 学 习 到 了 很 多 。 



























































感谢 机 械 工 业 出 版 社 华章 公司 的 编辑 杨 绣 国 (Lisa) 老师 ， 感 谢 你 的 魄力 和 远见 ， 在 最 近 的 3 个 月 中 始终 支持 我 的 写作 ， 你 的 鼓励 和 帮助 引导 我 顺利 完成 了 全 部 书稿 。 也 要 感谢 凌云 为 我 引荐 了 如 此 优秀 
的 出 版 社 和 编辑 。 








束 心 感谢 源码 资本 合伙 人 、 前 金山 软件 CEO、 前 微软 亚太 研发 集团 CTO 张 宏 江 先生 ， 非 常 荣幸 他 能 在 百 忙 之 中 抽空 为 本 书 作 序 。 也 表 心 感谢 Apache Kylin 联 合 创建 者 及 CEO 韩 贸 先 生 ， 饿 了 么 CTO 张 雪 
峰 先生 、CloudBrain 的 创始 人 张 本 宇 先生 为 本 书 撰写 推荐 滞 。 











还 要 感谢 我 和 太太 双方 的 父母 ， 感 谢 你 们 对 我 写 书 的 理解 和 支持 。 
最 后 我 一 定 要 谢谢 我 的 太太 stephanie 和 宝贝 儿子 Polaris， 为 了 此 书 我 周末 陪伴 你 们 的 时 间 更 少 了 。 你 们 不 但 没有 怨言 ， 而 且 时 时 刻 刻 为 我 灌输 着 信心 和 力量 ， 感 谢 你 们 ! 
说 以 此 书 ， 献 给 我 最 亲爱 的 家 人 ， 以 及 众多 热爱 大 数据 的 朋友 们 。 
黄 申 


美国 ， 硅 谷 ，2017 年 3 月 
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上 海 ， 又 是 一 个 春天 ， 阳 光 透 过 薄 薄 的 窗帘 ， 懒 懒散 散 地 酒 入 屋内 。 当 一 续 光线 偷偷 地 爬 到 杨 大 宝 的 眼角 时 ， 他 了 睁 开 了 胖 鹏 的 双眼 。 
等 等 ! 杨 大 宝 是 何许 人 也 ? 


杨 大 室 ， 姓 杨 名 大 宝 ， 土 生 土 长 的 上 海 人 ， 从 小 就 喜欢 玩 电子 产品 ， 大 学 的 专业 是 计算 机 科学 ， 酷 爱 信息 技术 和 互联 网 。 自 从 大 学 毕业 后 ， 就 一 直 就 职 于 一 家 大 型 IT 公司 。 最 近 ， 他 面临 着 人 生 的 一 项 
重大 选择 。 原 来 ， 有 几 位 志同道合 的 朋友 ， 想 拉 他 一 起 开创 公司 。 大 宝 很 清楚 ， 这 几 年 中 国 迎 来 了 创业 的 黄金 时 代 。 李 克 强 总 理 提出 的 “大 众 创业 ， 万 众 创新 ”， 明 确 了 政策 对 创业 的 大 力 支持 。 同 时 ， 老 
百姓 的 生活 水 平 正在 不 断 提高 ， 各 方面 的 需求 也 在 不 断 增 加 ， 各 种 风险 投资 非常 充裕 。 在 这 样 的 大 背景 下 ， 大 家 的 创业 热情 空前 高 涨 ， 尤 其 是 互联 网 ， 简 直 可 以 用 “疯狂 ”来 形容 。 大 宝 觉得 这 正 是 实现 自 
已 梦想 的 一 个 好 契机 。 不 过 ， 放 弃 目 前 优厚 的 薪资 待遇 和 受 人 间 散 的 公司 职位 ， 和 几 个 小 伙伴 去 冯 荡 江湖 ， 也 是 要 冒 不 少 风 险 的 ， 最 终 是 否 能 够 成 功 也 充满 了 变数 ， 这 样 做 到 底 值得 吗 ? 大 宝 这 几 天 夜 不 能 
罕 ， 就 连 晚 上 做 梦 也 要 纠结 一 番 。 若 不 是 淘气 的 阳光 溜 进来 ， 可 能 他 还 要 继续 在 梦 里 思考 。 


洗 汶 完毕， 大 宝 一 边 吃 着 早餐 ， 一 边 接着 整理 思路 。 首 先 ， 创 业 的 点 子 是 不 错 的 ， 主 要 思想 是 做 线 上 线 下 D2O (Offline to Online) 的 社区 商业 模式 : 将 大 型 社区 周边 的 各 种 服务 行业 进行 线 上 化 ， 让 用 
户 足 不 出 户 ， 就 可 以 叫 外 卖 、 订 座 ， 享 受 美甲 、 按 摩 等 服务 ， 还 可 以 购买 商品 。 用 户 的 生活 需求 能 够 得 到 更 大 程度 的 满足 ， 商 家 也 可 以 吸引 到 更 多 的 线 上 客流 ， 而 公司 的 平台 也 能 从 双方 的 交易 中 获得 收 
瘟 ， 形 成 多 方 互 赢 的 局 势 ， 市场 前 景 光明 。 其 次 ， 因 为 大 宝 是 团队 里 唯一 懂得 IT 技 术 的 骨干 ， 那 么 公司 里 整个 庞大 的 网 络 系统 架构 肯定 会 由 他 来 负责 了 。 这 几 年 的 工作 经 历 ， 让 他 也 积攒 了 不 少 设计 和 开发 
的 实战 经 验 。 对 于 后 端的 例如 数据 库 、ERP (Enterprise Resource Planning) 系统 、 图 片 服务 器 ， 前 端的 例如 会 员 注 册 、 购 物流 程 、 页 面 展 示 等 ， 大 宝 都 有 很 深入 的 了 解 。 不 过 他 还 是 隐约 觉得 缺 了 些 什么 。 


吃 完 早餐 后 ， 大 宝 熟 练 地 打开 电脑 ， 开 始 飞 快 地 在 网 上 查阅 资料 ， 钻 研 成 功 的 互联 网 站 点 是 如 何 设计 和 架构 的 。 就 这 样 ， 时 钟 滴 滴答 答 地 走 着 ， 不 知 不 觉 一 天 又 过 去 了 。 随 着 夜 莫 的 降临 ， 望 着 窗外 柔 
和 的 街灯 ， 大 宝 深 深 地 吐 了 口气 。“ 还 缺 一 个 关键 词 : 大 数据 ”， 这 是 他 一 天 研究 下 来 得 出 来 的 结论 。 


等 等 ? 大 数据 又 是 什么 ? 


好 问题 ， 其 实 此 刻 大 宝 心里 也 没 谱 ， 但 是 他 看 到 好 多 资料 都 反复 提 到 这 个 词 。 他 隐约 觉得 ， 如 果 没 有 摸 清 这 一 点 ， 那 么 对 于 这 个 初创 公司 而 言 就 会 存在 很 大 的 不 确定 性 。 可 是 ， 目 前 创业 的 团队 也 很 
多 ,竞争 相 当 激烈 ， 从 来 都 不 缺乏 好 的 创意 ， 就 看 谁 能 先 做 得 出 、 做 得 好 、 做 得 快 。 没 有 太 多 的 时 间 留 给 大 宝 了 。 该 如 何 是 好 呢 ? 突 然 ， 大 宝 想 到 一 个 人 ， 也 许 能 为 他 解决 心中 的 这 个 疑惑 。 


此 人 就 是 黄 小 明 ， 是 大 宝 的 表 哥 。 他 是 知青 子女 ， 从 小 随 父 母 到 武汉 生活 和 读书 ， 到 16 岁 的 时 候 回 到 上 海 ， 考 入 了 知名 的 高 校 ， 并 且 获 得 了 计算 机 科学 的 博士 学 位 ， 可 谓 知识 渊博 。 毕 业 后 他 在 几 家 世 
界 知 名 的 互联 网 和 电子 商务 公司 任职 ， 有 十 多 年 的 科研 和 开发 经 验 ， 目 前 正在 带领 团队 攻关 几 个 核心 项 目 。 去 年 还 出 版 了 《大 数据 架构 商业 之 路 》 一 书 ， 口 碑 很 赞 。 


终于 ， 在 一 个 美好 的 周末 下 午 茶 时 间 ， 大 宝 约 到 了 小 明 。 大 宝 开门 见 山 ， 针 对 自己 目前 的 状况 和 思考 的 问题 进行 了 说 明 。 
“是 大 宝 ， 大 数据 的 确 是 个 非常 重要 的 领域 ， 而 且 想 要 上 手 也 有 一 定 的 难度 。” 
“ 哦 ， 为 什么 呢 ? “ 


“大 数据 入 门 的 门槛 比较 高 ， 原 因 有 几 点 : 知识 面 非 常 广 ， 技 术 含 量 也 比较 高 ， 此 外 发 展 和 更 新 的 速度 也 快 得 惊人 。 更 为 关键 的 是 ， 这 些 技术 一 般 都 是 开源 的 ， 很 多 都 需要 自己 去 摸索 和 积累 。 除 非 你 
们 考虑 直接 使 用 一 些 大 公司 比较 成 熟 的 付费 方案 。” 





“ 嗯 ， 因 为 是 创业 起 步 阶段 ， 我 们 肯定 是 不 会 考虑 昂贵 的 商业 解决 方案 的 。” 
“ 那 问题 就 更 加 复杂 了 …… 不 过 ……” 

“不 过 什么 ? ” 

“如 果 你 肯 花 些 功夫 学 习 ， 或 许 我 能 给 你 一 些 建议 和 启发 。” 

“哈哈 ， 小 明 哥 ， 杭 了 半天 是 你 要 自 卖 自 夺 啊 ! ” 


“这 都 被 你 看 出 来 了 。 其 实 我 在 去 年 就 出 版 过 一 本 关于 大 数据 的 书 ， 其 中 介绍 了 不 少 有 关 的 基础 知识 和 理论 ， 并 融入 了 这 些 年 的 心得 体会 ， 你 有 兴趣 的 话 可 以 先 看 看 这 本 书 。” 


“哈哈 ， 你 说 的 是 《大 数据 架构 商业 之 路 》 那 本 书 吧 ， 我 已 经 开始 拜读 啦 ! 不 过 ， 那 本 书 偏重 于 理论 知识 ， 对 于 实际 开发 介绍 得 太 少 了 。” 
“ 那 这 样 吧 ， 结 合 你 的 实际 工作 需要 ， 以 及 项 目 中 的 难点 和 挑战 ， 我 们 一 起 来 实践 下 如 何 ? ” 


“ 那 当然 求 之 不 得 ! ” 


“ 第 1 章 方案 设计 和 技术 选 型 : 分 类 
“第 2 章 方案 设计 和 技术 选 型 : 聚 类 
“第 3 章 方案 设计 和 技术 选 型 : 因 变 量 连 续 的 回归 分 析 


大 宝 和 伙伴 们 的 创业 很 快 就 开始 了 ， 由 于 其 提供 了 线 上 线 下 无 颖 结合 的 社区 商业 模式 ， 公 司 业务 发 展 得 相当 顺利 ， 陆 续 接 入 了 几 个 大 型 社区 和 商 圈 周边 的 各 种 服务 行业 。 整 个 线 上 系统 的 商品 丰富 度 也 
相当 不 错 ， 涵 盖 了 衣食 住 行 多 个 方面 。 然 而 ， 随 着 在 线 商 品 的 不 断 增 长 ， 商 家 们 发 现 已 有 的 运营 工具 存在 非常 大 的 局 限 性 ， 工 作 效 率 很 难得 到 提高 。 随 着 商家 抱怨 程度 的 加 剧 ， 团 队 开始 急于 找到 问题 的 根 
源 所 在 ， 于 是 指派 负责 运营 的 小 丽 对 商家 进行 了 深入 的 访谈 和 调研 。 在 收集 完 众多 商家 的 反馈 之 后 ， 小 丽 找 到 了 大 宝 。 


“大 宝 ,， 早上 好 。 有 时 间 吗 ?最 近 我 们 部 门 对 商家 进行 了 一 些 访谈 ， 深 入 讨论 了 他 们 提出 的 运营 效率 问题 。 其 中 有 一 些 可 能 需要 你 们 技术 部 的 大 力 支持 ， 所 以 我 今天 特地 来 和 你 沟通 一 下 。” 
“ 嗨 ， 小 丽 ， 你 好 。 没 问题 ， 你 将 问题 说 来 听 听 ”。 


“我 稍微 整理 了 一 下 ， 大 体 上 可 以 分 为 三 个 主要 的 痛 点 。 第 一 点 ， 缺 乏 玫 助 商家 找到 准确 分 类 的 工具 。 你 也 知道 ， 目 前 我 们 的 业务 飞速 发 展 ， 上 架 的 商品 琳琅 满目 ， 商 品 最 细 粒 度 的 分 类 部 超过 了 5000 
项 。 这 对 公司 的 成 长 来 说 无 疑 是 好 消息 ， 不 过 对 于 运营 人 员 而 言 可 谓 是 器 梦 。 海 量 的 类 目 信 息 让 他 们 难以 为 自己 的 新 商品 找到 合适 的 分 类 ,偶尔 还 会 发 生 错 放 类 目的 现象 。 第 二 点 ， 缺 乏 帮 助 商 家 进行 合理 
关键 词 SEO (Search Engine Optimization) 的 工具 。 我 们 最 近 也 引进 了 不 少 新 的 商家 ， 他 们 在 传统 的 线 下 行业 中 有 很 强 的 竞争 力 ， 但 是 对 线 上 的 电子 商务 运营 却 知之 甚 少 ， 甚 至 都 不 知道 怎样 合理 地 在 文 描 中 
阐述 自己 的 商品 。 第 三 点 ， 缺 乏 可 以 预测 商品 转化 率 的 工具 。 对 于 零售 等 消费 领域 而 言 ， 销 量 和 转化 率 无 疑 是 衡量 业绩 最 为 关键 的 因素 。 传 统 行业 的 商家 大 多 数 还 是 依靠 经 验 和 有 限 的 销量 报告 来 预 估 未 来 
的 销售 情况 。 他 们 想 知道 ， 在 电子 商务 的 大 环境 下 ， 是 否 能 够 利用 大 量 的 历史 数据 ， 来 实现 同样 的 目标 。” 


小 明 听 完 后 感 党 有 些 迷 茫 ， 他 觉得 普通 的 IT 技术 好 像 无 法 解决 这 些 问 题 。 于 是 ， 他 找到 了 小 明 ， 项 望 小 明 能 从 大 数据 技术 的 角度 ， 为 他 提供 一 些 指导 。 


第 1 章 方案 设计 和 技术 选 型 : 分 类 














听 完 大 宝 关 于 第 一 点 的 描述 ， 小 明 很 肯定 地 说 : “你 们 的 商家 应 该 是 需要 这 样 的 一 个 功能 : 在 他 们 发 布 商品 的 时 候 ， 系 统 会 自动 地 为 其 推荐 合适 的 商品 分 类 ， 其 界面 示意 图 如 图 1-1 所 示 。 如 果 商 家 希望 
出 售 一 台 苹果 的 Mac Pro 笔 记 本 电脑 ， 输 入 “MacBook Pro” 后 ， 系 统 能 够 自动 为 其 提示 最 为 相关 的 三 个 分 类 “笔记 本 电脑 ”、 “笔记 本 配件 ”和 “其 他 数码 ” 。 这 是 由 后 台 的 分 类 算法 来 实现 的 ， 如 果 该 
算法 足够 聪明 ， 那 么 它 推荐 的 第 一 个 分 类 就 应 该 是 正确 的 ， 商 家 只 需要 点 击 选择 即 可 。 这 样 ， 既 方便 了 商家 的 商品 发 布 ， 又 避免 了 粗心 大 意 而 导致 的 错误 分 类 。 而 且 ， 对 于 少数 企图 违规 操作 的 商家 ， 如 果 
他 们 选择 了 和 系统 默认 推荐 相差 甚 远 的 分 类 选项 ， 其 行为 也 会 被 系统 记录 在 案 ， 然 后 定期 生成 报表 ， 提 交 给 运营 部 门 进 行 核查 。 如 此 一 来 ， 人 们 就 不 用 在 纷繁 复杂 的 类 目 中 痛苦 摸索 ， 工 作 的 效率 也 会 大 幅 
提升 。” 




































































电脑 /电脑 


配件 > 笔记 本 配件 


数码 3C 产 品 > 其 他 数码 


女装 
鞋 包 配 饰 
相机 /摄像 机 
数码 3C 产 品 


家 居 / 日 用 品 


家 用 电器 /影音 设备 


分 类 模型 计算 得 出 的 


男装 
手机 


电脑 /电脑 配件 
美容 / 美 颜 /香水 
食品 /保健 品 


图 1-1 类 目 自动 化 分 类 的 应 用 











“ 没 错 ， 这 应 该 是 商家 愿意 使 








“分 类 ， 是 一 个 典型 的 监督 式 机 器 学 习 方 法 ”。 


“ 哦 ， 什 么 是 机 器 学 习 ? 什么 是 监督 式 的 学 习 ? 


的 工具 ， 如 果真 能 实现 那 就 太 棒 了 。 不 过 ， 你 刚刚 提 到 的 分 类 算法 是 什么 2“ 


“现在 ， 我 们 从 头 来 讲 ， 然 后 逐步 定位 这 里 的 技术 方案 和 选 型 。” 


1.1 分 类 的 基本 概念 








好 莱 坞 著名 的 电影 系列 《终结 者 》 想 必 大 家 都 耳熟能详 
初 是 出 于 军事 目的 而 研发 的 ， 后 来 自我 意识 觉醒 ， 视 全 人 类 








能 杰作 Alpha Go， 及 其 相关 的 机 器 深度 学 习 ， 让 人 们 再 次 开始 审视 这 





定 程度 的 “学 习 ”， 
实现 人 类 的 学 习 行为 ， 以 获取 新 的 知识 或 技能 ， 
征 识别 、 医 学 诊断 等 。 


这 正 是 机 器 学 习 (Machine Learning) 


是 








任何 机 器 学 习 的 任务 大 体 上 都 可 以 分 为 数据 的 表示 (或 
本 篇 将 快速 重 温 几 种 主流 的 机 器 学 习 方式 和 算法 ， 然 后 重点 





























新 组 织 已 有 的 








了 ， 其 中 主角 之 一 “天 网 ”让 人 印象 深刻 。 之 所 以 难忘 ， 是 
为 威胁 ， 发 动 了 审判 
类 问题 。 虽 然 目前 尚 无 证 











所 关注 的 


日 。 当 然 ， 这 一 切 都 是 剧情 里 的 虚构 场景 。 


母 婴 /儿童 用 品 /玩具 





相关 分 类 





因为 它 并 非 人 类 ， 而 是 20 世 纪 后 期 人 们 以 计算 机 为 基础 创建 的 人 工 智能 防御 系统 ， 最 
那么 现实 生活 中 ， 机 器 真 的 可 以 自我 学 习 、 超 越 人 类 吗 ”最 近 大 火 的 谷歌 人 工 智 
居 表 明 现 实 中 的 机 器 能 像 “ 天 网 ”一 样 自我 思考 ， 但 是 机 器 确实 能 在 某 些 课题 上 、 按 照 人 们 设 定 的 模式 进行 一 














知识 结 


el 


构 使 之 不 断 改善 自身 的 性 能 。 机 器 学 习 在 多 个 领域 


特征 工程 ) 、 预 处 理 、 学 习 算 法 ， 以 及 评估 等 几 个 步骤 。 
阐述 其 




















聚 类 (clustering) 。 对 了 
讨 。 





监督 式 学 习 (Supervised Learning) ， 是 指 通过 训练 资料 学 习 并 建立 一 个 模型 ， 然 后 依 此 模型 推测 新 的 实例 。j 


以 是 一 个 连续 的 值 ， 分 别称 为 分 类 问题 和 线性 回归 分 析 。 分 : 
训练 数据 集 的 分 析 ， 一 般 分 为 启发 式 规则 、 决 策 树 、 数 学 公 : 
算 机 学 习 并 建立 模型 ， 最 终 拥有 判断 新 数据 的 能 力 。 


刚刚 讨论 的 第 一 个 业务 需求 ， 我 们 将 运 有 














分 类 技术 。 而 对 了 





























类 技术 旨 在 找 出 描述 和 区 分 数据 类 的 模型 ， 以 便 能 够 使 


《大 数 





已 经 有 了 十 分 广泛 的 应 








， 例 如 














式 和 神经 网 络 。 举 个 例子 ， 我 们 为 计算 机 系统 展示 大 量 的 














如 果 你 觉得 这 样 说 还 是 过 于 抽象 ， 那 么 让 我 们 继续 采 





楼 和 西瓜 三 种 水 果 ， 没 有 其 他 种 类 。 然 后 每 次 随机 摸 出 一 颗 ， 











人 ab 图 


水 果 的 案例 ， 生 动 地 描述 一 下 “分 类 ”问题 。 假 想 这 样 的 


三 
票 





为 机 器 是 不 能 完成 人 类 所 有 的 思维 和 决策 的 。 分 类 算法 试 


让 计算 机 在 特定 的 条 件 下 ， 模 仿 人 的 决策 ， 高 效率 地 进行 分 类 





的 。 如 果 输 入 的 是 一 组 特征 值 ， 那 么 ， 输 出 的 就 一 定 是 确定 


的 选项 之 一 。 























“大 宝 ， 计 算 机 的 自动 分 类 有 很 多 应 











场景 ， 远 不 止 水 





果 划 分 这 么 简 和 





让 果农 判断 它 是 三 类 中 的 哪 一 类 。 这 就 是 最 基本 的 分 类 问题 ， 





遇 架 构 商 业 之 路 》 一 书 的 6.1 节 和 6.2 节 ， 已 经 详细 介绍 了 数 
实践 过 程 。 这 里 的 算法 包括 监督 式 学 习 中 的 分 类 (classification/categorization) 和 线性 
小 丽 提出 的 第 2 个 和 第 3 个 需求 ， 我 们 将 利用 这 些 机 会 分 别 学 习 聚 类 和 线性 回归 ， 


。 机 器 学 习 是 一 门 多 领域 交叉 学 科 ， 涉 及 概率 论 、 统 计 学 、 逼 近 论 、 吓 分 析 、 算 法 复杂 度 理论 等 多 门 学 科 。 专 门 研究 计算 机 怎样 模拟 或 


， 数 据 挖掘 、 计 算 机 视觉 、 自 然 语言 处 理 、 生 物 特 

















居 的 表示 和 | 预 处 理 。 
， 非 监督 式 学 习 中 的 
体 将 在 稍 后 的 第 2 章 和 第 3 章 分 别 探 








日 





归 (linear regression) 


























| 练 资料 是 由 输入 数据 对 象 和 预期 输出 组 成 的 。 模 型 的 输出 可 以 是 一 个 离散 的 标签 ， 也 可 
模型 预测 分 类 信息 未 知 的 数据 对 象 ， 告 诉 人 们 它 应 该 
水 果 ， 然 后 告诉 它 哪些 是 苹果 ， 哪 些 是 甜 档 ， 通 过 这 些 样 本 和 我 们 设 定 的 建 模 方法 ， 计 








属于 哪个 分 类 。 模 型 的 生成 是 基于 


: 将 1000 颗 水 果 放 入 一 个 黑箱 中 ， 并 事先 告诉 一 位 果农 ， 黑 箱 里 只 可 能 有 苹果 、 甜 


只 提供 有 限 的 选项 ， 而 减少 了 
。 研 究 人 员 发 现 ， 在 有 限 的 范围 





潜在 的 复杂 性 和 可 能 性 。 不 过 问题 在 于 ， 计 算 机 作 


内 做 出 单一 [选择 时 ， 这 种 基于 机 器 的 方法 是 可 行 


苦 ， 比 如 你 们 目前 的 这 个 需求 : 将 商品 挂 载 到 合适 的 产品 类 目 。 当 然 还 有 邮件 归 类 、 垃 圾 短信 识别 、 将 顾客 按 兴趣 分 组 等 ， 这 些 都 








可 以 应 用 分 类 技术 。” 








[由 有 时 也 会 让 系统 做 出 多 个 选择 ， 将 数据 对 象 分 到 多 个 类 中 。 


1.2 分 类 任务 的 处 理 流程 


给 出 分 类 问题 的 基本 概念 之 后 ， 下 面 就 来 理解 分 类 的 关键 要 素 和 流程 。 








“ 学习: 指 计算 机 通过 人 类 标注 的 指导 性 数据 ，“ 理 解 ” 和 “模仿 ”人 类 决策 的 过 程 。 


“ 算法 模型 : 分 类 算法 通过 训练 数据 的 学 习 ， 其 计算 方式 和 最 后 的 输出 结果 ， 称 为 模型 。 通 常 是 指 一 个 做 决策 的 计算 机 程序 及 其 相应 的 存储 结构 ， 它 使 得 计算 机 的 学 习 行为 更 加 具体 化 。 常 见 的 模型 有 


朴素 贝 叶 斯 (Naive Bayes) 、 开 -最 近邻 (KNN) 、 决 策 树 ， 等 等 。 


: 标注 数据 : 也 称 为 标注 样本 。 由 于 分 类 学 习 是 监督 式 的 ， 对 于 每 个 数据 对 象 ， 除 了 必要 的 特征 值 列 表 ， 还 必须 告诉 计算 机 它 属于 哪个 分 类 。 因 此 需要 事先 进行 人 工 的 标注 ， 为 每 个 对 象 指 定 分 类 的 标 
签 。 在 前 面 的 水 果 案 例 中 ， 对 各 个 水 果 分 别 打 上 “ 革 果 ”“ 甜 梅 ”和 “西瓜 ”的 标签 就 是 标注 的 过 程 。 这 一 点 非常 关键 ， 标 注 数据 相当 于 人 类 的 老师 ， 其 质量 高 低 直接 决定 机 器 学 习 的 效果 。 值 得 注意 的 
是 ， 标 注 数据 既 可 以 作为 训练 阶段 的 学 习 样 本 ， 也 可 以 作为 测试 阶段 的 预测 样本 。 在 将 监督 式 算法 大 规模 应 用 到 实际 生产 之 前 ， 研 究 人 员 通 常会 进行 离线 的 交叉 验证 〈(Cross Validation) ， 这 种 情况 会 将 大 部 
分 标注 数据 用 在 训练 阶段 ， 而 将 少 部 分 留 在 测试 阶段 使 用 。 对 于 交叉 验证 ， 会 在 后 文 的 效果 评估 部 分 做 进一步 阐述 。 在 正式 的 生产 环境 中 ， 往 往 会 将 所 有 的 标注 数据 用 于 训练 阶段 ， 以 提升 最 终 效果 。 


“ 训练 数据 : 也 称 为 训练 样本 。 这 些 是 带 有 分 类 标签 的 数据 ， 作 为 学 习 算 法 的 输入 数据 ， 用 于 构建 最 终 的 模型 。 根 据 离 线 内 测 、 在 线 实 际 生产 等 不 同 的 情形 ， 训 练 数据 会 取 标注 数据 的 子 集 或 全 集 。 


: 测试 数据 : 也 称 为 测试 样本 。 这 些 是 不 具备 或 被 隐藏 了 分 类 标签 的 数据 ， 模 型 会 根据 测试 数据 的 特征 ， 预 测 其 应 该 具有 的 标签 。 在 进行 离线 内 测 时 ， 交 又 验证 会 保留 部 分 标注 数据 作为 测试 之 用 ， 因 
此 会 故意 隐藏 其 标注 值 ， 以 便于 评估 模型 的 效果 。 如 果 是 在 实际 生产 中 ， 那 么 任何 一 个 新 预测 的 对 象 都 是 测试 数据 ， 而 且 只 能 在 事后 通过 人 工 标注 来 再 次 验证 其 正确 性 。 


“ 训练: 也 称 为 学 习 。 算 法 模型 通过 训练 数据 进行 学 习 的 过 程 。 


“ 测试: 也 称 为 预测 。 算 法 模型 在 训练 完毕 之 后 ， 根 据 新 数据 的 特征 来 预测 其 属于 哪个 分 类 的 过 程 。 
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1-2 将 如 上 的 基本 要 素 串 联 起 来 ， 展 示 了 分 类 学 习 的 基本 流程 。 














训练 数据 数据 存储 





测试 (预测 ) 


测试 数据 预测 结果 






图 1-2 分 类 学 习 的 基本 流程 























理解 了 这 些 要 素 和 分 类 过 程 之 后 ， 可 以 发 现 ， 除 了 人 工 标注 之 外 ， 最 为 核心 的 就 是 分 类 的 算法 了 。 接 下 来 ， 我 们 再 来 看 看 几 个 常用 的 分 类 算法 。 


1.3 ”算法 : 朴素 贝 叶 斯 和 K 最 近邻 


1.3.1 朴素 贝 叶 斯 














朴素 贝 叶 斯 (Naive Bayes) 分 类 是 一 种 实用 性 很 高 的 分 类 方法 ， 在 理解 它 之 前 ， 我 们 先 来 复习 一 下 贝 叶 斯 理论 。 贝 叶 斯 决策 理论 是 主观 贝 叶 斯 派 归纳 理论 的 重要 组 成 部 分 。 贝 叶 斯 决策 就 是 在 信息 不 
完整 的 情况 下 ， 对 部 分 未 知 的 状态 用 主观 概率 进行 估计 ， 然 后 用 贝 叶 斯 公式 对 发 生 概率 进行 修正 ， 最 后 再 利用 期 望 值 和 修正 概率 做 出 最 优 决策 。 其 基本 思想 具体 如 下 。 

































































1) 已 知 类 条 件 概率 密度 参数 表达 式 和 先 验 概率 。 











2) 利用 贝 叶 斯 公式 转换 成 后 验 概率 。 





3) 根据 后 验 概率 大 小 进行 决策 分 类 。 


最 主要 的 贝 叶 斯 公式 如 下 : 
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BIA})xP 





AIB)= 





























其 中 ， 在 未 知事 件 里 ，B 出 现时 A 出 现 的 后 验 概率 在 主观 上 等 于 已 有 事件 中 A 出 现时 B 出 现 的 先 验 概率 值 乘 以 A 出 现 的 先 验 概率 值 ， 然 后 除 以 B 出 现 的 先 验 概率 值 所 得 到 的 最 终结 果 。 这 就 是 贝 叶 斯 的 核 


心 : 用 先 验 概率 估计 后 验 概率 。 具 体 到 分 类 模型 中 ， 上 述 公式 可 以 重 写 为 : 


对 上 述 公式 的 理解 如 下 : 将 c 看 作 一 个 分 类 ， 将 f 奢 作 样本 的 特征 之 一 ， 此 时 等 号 左边 P (clf) 为 待 分 类 样本 中 出 现 特征 f 时 该 样本 属于 类 别 c 的 概率 ， 而 等 号 右边 P (flc) 是 根据 训练 数据 统计 得 到 分 类 c 
中 出 现 特征 {的 概率 ，P (c) 是 分 类 c 在 训练 数据 中 出 现 的 概率 ， 最 后 P (f) 是 特征 f 在 训练 样本 中 出 现 的 概率 。 



























































Plc|)= 














分 析 完 贝 叶 斯 公式 之 后 ， 朴 素 贝 叶 斯 就 很 容易 理解 了 。 朴 素 贝 叶 斯 就 是 基于 一 个 简单 假设 所 建立 的 一 种 贝 叶 斯 方法 ， 它 假定 数据 对 象 的 不 同 特征 对 其 归 类 时 的 影响 是 相互 独立 的 。 此 时 若 数 据 对 象 中 同 


时 出 现 特征 fi 与 有 ， 则 对 象 属 于 类 别 c 的 概率 为 : 
Plc|f,f;)=P(c|j;)xPlc|f, 


Plclo 
P(xP(e) PlfslejxPle 
一 一 X 一 一 
P(f Plf, 














1.3.2 K 最 近邻 














贝 叶 斯 理论 的 分 类 器 ， 在 训练 阶段 需要 较 大 的 计算 量 ， 但 在 测试 阶段 其 计算 量 非常 小 。 有 一 种 基于 实例 的 归纳 学 习 与 贝 叶 斯 理论 的 分 类 器 恰恰 相反 ， 训 练 时 几乎 没有 任何 计算 负担 ， 但 是 在 面 对 新 数据 
对 象 时 却 有 很 大 的 计算 开销 。 基 于 实例 的 方法 最 大 的 优势 在 于 其 概念 简明 易 懂 ， 下 面 就 来 介绍 最 基础 的 K 最 近邻 (K-Near Neighbor，KNN) 分 类 法 。 





















































KNN 分 类 算法 其 核心 思想 是 假定 所 有 的 数据 对 象 都 对 应 于 n 维 空间 中 的 点 ， 如 果 一 个 数据 对 象 在 特征 空间 中 的 k 个 最 相 邻 对 象 中 的 大 多 数 属于 某 一 个 类 别 ， 则 该 对 象 也 属于 这 个 类 别 ， 并 具有 这 个 类 别 上 
样本 的 特性 。KNN 方 法 在 进行 类 别 决策 时 ， 只 与 极 少量 的 相 邻 样本 有 关 。 由 于 主要 是 靠 周围 有 限 的 邻近 样本 ， 因 此 对 于 类 域 的 交叉 或 重 赦 较 多 的 待 分 样本 集 来 说 ，KNN 方 法 较 其 他 方法 更 为 适合 。 图 1-3 表 
示 了 水 果 案 例 中 的 K 近 邻 算法 的 简化 示意 图 。 因 为 水 果 对 象 的 特征 维度 远 超过 2 维 ， 所 以 这 里 将 多 维 空间 中 的 点 简单 地 投影 到 二 维 空间 ， 以 便于 图 示 和 理解 。 图 中 N 设 置 为 5， 待 判定 的 新 数据 对 象 “”” 最 近 
的 5 个 邻居 中 ， 有 3 个 甜 楼 、1 个 苹果 和 1 个 西瓜 ， 因 此 取 最 多 数 的 甜 楼 作为 该 未 知 对 象 的 分 类 标签 。 









































































































































1-3 ”新 的 数据 对 象 被 KNN 判 定 为 甜 柳 ，N 取 值 为 5 





KNN 基 本 无 须 训 练 ， 下 面 给 出 预测 算法 的 大 致 流程 : 





1) KNN 输 入 训练 数据 、 分 类 标签 、 特 征 列表 TL、 相 似 度 定 义 、k 设 置 等 数据 。 





2) 给 定 等 待 预测 的 新 数据 。 





3) 在 训练 数据 集合 中 寻找 最 近 的 K 个 邻居 。 


4) 统计 K 个 邻居 中 最 多 数 的 分 类 标签 ， 赋 给 给 定 的 新 数据 ， 公 式 如 下 : 





label(x,,,)<-argmax > ol(il,labell(x, 
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new 
leL 1 一 














其 中 xnew 表 示 待 预测 的 新 数据 对 象 ，| 表 示 分 类 标签 ，! 表 示 分 类 标签 的 集合 ，x 冰 示 k 个 邻居 中 的 第 i 个 对 象 。 如 果 xi 的 分 类 标签 abel (xi) 和 | 相等 ， 那 么 5 (1，label (xi) ) 取 值 为 1， 否 则 取 值 为 0。 我 
们 可 以 对 KNN 算 法 做 一 个 直观 的 改进 ， 根 据 每 个 近邻 和 待 测 点 xnew 的 距离 ， 将 更 大 的 权 值 赋 给 更 近 的 邻居 。 比 如 ， 可 以 根据 每 个 近邻 于 xnew 的 距离 平方 的 倒数 来 确定 近邻 的 “选举 权 ”， 改 进 公式 如 下 : 



































new 
te 


大 
label (x,,, ) < arg max > w, xoll,label lx, 
1=] 


] 
d(x 


从 算法 的 流程 可 以 看 出 ， 空 间距 离 的 计算 对 于 KNN 算 法 尤为 关键 。 常 见 的 定义 包括 欧 氏 距离 、 余 弦 相 似 度 、 曼 哈 顿 距 离 、 相 关系 数 等 。 


k. 


new ? ”1 


对 算法 细节 感 兴趣 的 读者 ， 可 以 阅读 《大 数据 架构 商业 之 路 》 的 6.3.1 节 。 


14 分 类 效果 评估 














到 了 这 一 步 ， 你 可 能 会 产生 几 个 疑问 : 机 器 的 分 类 准确 吗 ” 是 否 会 存在 错误 ?不 同 的 分 类 算法 相 比 较 ， 熟 优 熟 劣 呢 ? 这 是 个 很 好 的 问题 ， 确 实 ， 我 们 无 法 保证 分 类 算法 都 是 准确 有 效 的 。 不 同 的 应 用 场 
景 ， 不 同 的 数据 集合 都 有 可 能 会 影响 到 算法 最 终 的 精准 度 。 为 了 更 加 客观 地 衡量 其 效果 ， 需 要 采用 一 些 评估 的 手段 。 对 于 分 类 问题 而 言 ， 我 们 最 常用 的 是 离线 评估 。 也 就 是 在 系统 没有 上 线 之 前 ， 使 用 现 有 
的 标注 数据 集合 来 进行 评测 。 其 优势 在 于 ， 上 线 之 前 的 测试 更 便于 设计 者 发 现 问题 。 万 一 发 现 了 可 以 改进 之 处 ， 技 术 调整 后 也 可 以 再 次 进行 评估 ， 反 复 测试 的 效率 非常 之 高 。 
















































































值得 一 提 的 是 ， 分 类 有 两 大 类 型 : 二 分 类 和 多 分 类 。 二 分 类 是 指 判断 数据 对 象 属于 或 不 属于 一 个 给 定 的 分 类 ， 而 多 分 类 则 是 指 将 数据 对 象 判定 为 多 个 分 类 中 的 一 个 。 多 分 类 的 评估 策略 会 更 复杂 一 些 ， 
不 过 ， 可 以 将 其 转化 为 多 个 二 分 类 问题 来 对 待 。 所 以 ， 让 我 们 从 二 分 类 的 评估 入 手 ， 先 了 解 一 下 表 1-1 中 的 混淆 矩阵 (Confusion Matrix) 这 个 核心 概念 。 














表 1-1 混淆 矩阵 示意 表 
预测 的 类 
| | Ys | No | 
True Positive (TP) False Negative (FN) 
False Positive (FP) True Negative (TN) 

下 面 就 来 逐个 解释 一 下 这 个 矩阵 中 的 元 素 ， 假 设 有 一 组 标注 好 的 数据 集 d， 并 将 其 认定 为 标准 答案 。 其 中 属于 A 类 的 数据 称 为 正 例 (Positive) ， 不 属于 A 类 的 另外 一 部 分 数据 称 为 负 例 (Negative) ，d 
是 正 例 和 负 例 的 并 集 ， 而 且 正 例 和 负 例 没有 交集 。 这 时 ， 可 以 通过 一 个 分 类 算法 c 来 判定 在 这 些 数据 中 ， 是 否 有 一 组 数据 对 象 属于 A 类 。 若 c 判 断 属于 A 类 的 则 称 为 预测 正 例 (Positive” ) ， 而 不 属于 A 类 的 


则 称 为 预测 负 例 (Negative” ) 。 如 果 d 标 注 为 正 例 ，c 也 预测 为 正 例 ， 那 么 就 称 为 真正 例 (True Positive，TP) 。 如 果 d 标 注 为 正 例 ，c 预 测 为 负 例 ， 那 么 就 称 为 假 负 例 (False Negative，FN) 。 如 果 d 
标注 为 负 例 ，c 也 预测 为 负 例 ， 那 么 就 称 为 真 负 例 (True Negative，TN) 。 如 果 d 标 注 为 负 例 ，c 预 测 为 正 例 ， 那 么 就 称 为 假 正 例 (False Positive，FP) 。 









Positive 






实际 的 类 







Negative 


















































根据 混淆 和 矩阵， 我 们 可 以 依次 定义 这 些 指标 : 精度 (Precision) p、 召 回 率 (Recall) r、 准 确 率 (Accuracy) a 和 错误 率 (Error Rate) e。 


7P 
TP+FP 


AP 
TP+FN 


bp 


rr 


TP+IN 


P+N 


FP+FN 


P+N 


除了 定义 评估 的 指标 之 外 ， 还 需要 考虑 一 个 很 实际 的 问题 : 我 们 该 如 何 选择 训练 数据 集 和 疯 
集 。 然 而 ， 训 练 和 测试 的 不 同 划分 方式 ， 可 能 会 对 最 终 评测 的 结论 产生 很 大 的 影响 ， 原 
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“ 训练 样本 的 数量 决定 了 模型 的 效果 。 如 果 不 考虑 过 拟 合 的 情况 ， 那 么 对 于 同一 个 模型 而 言 ， 


10% 的 数据 作为 测试 样本 ; 而 方案 B 则 正好 颠倒 ， 只 用 10% 的 数据 作为 训练 样本 ， 测 试 剩 下 90% 的 
练 和 测试 的 数据 比例 导致 了 的 偏差 。 


结论 
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试 数据 集 ? 进行 离线 评估 的 时 候 ， 并 不 需要 将 全 部 的 标注 样本 都 作为 训练 集 ， 而 是 可 以 预 留 一 部 分 作为 测试 
体 如 下 。 


一 般 情况 下 训练 数据 越 多 ， 精 度 就 会 越 高 。 例 如 ， 方 案 A 选 择 90% 的 数据 作为 训练 样本 来 训练 模型 ， 剩 下 
数据 。 那 方案 A 测试 下 的 模型 准确 率 很 可 能 会 比方 案 B 测 出 的 模型 准确 率 要 好 很 多 。 虽 然 模 型 是 一 样 的 ， 但 训 


: 不 同 的 样本 有 不 同 的 数据 分 布 。 假 设 方案 A 和 B 都 取 90% 作 为 训练 样本 ， 但 是 A 取 的 是 前 90% 的 部 分 ， 而 B 取 的 是 后 90% 的 部 分 ， 二 者 的 数据 分 布 不 同 ， 对 于 模型 的 训练 效果 可 能 也 会 不 同 。 同 理 ， 这 时 


剩 下 10% 的 测试 数据 其 分 布 也 会 不 相同 ， 这 些 都 会 导致 评测 结果 不 一 致 。 





鉴于 此 ， 人 们 发 明了 一 种 称 为 交叉 验证 (Cross Va 
预测 结果 进行 评估 。 这 个 过 程 反复 进行 若干 轮 ， 直 到 所 有 的 标注 样本 都 被 预测 一 次 而 且 仅 预测 一 
(Leave One Out) 是 交叉 验证 的 特殊 形式 ， 意 指 只 使 
证 (K-fold Cross Validation) 是 指 训练 集 被 随机 地 划分 为 K 等 分 ， 每 次 都 是 采 
过 平均 K 次 的 结果 可 以 得 到 整体 的 评估 值 。 假 设 有 数据 集 D 被 切 分 为 K 份 (d1，d2，…， 
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Validation, 















































dk)， 则 


d, 


Validation, = d, 


如 果 标注 样本 的 数量 足够 多 ，K 的 值 一 般 取 5 到 30， 
值 适 当 取 值 大 一 些 。 

















1.5 “相关 软件 : R 和 Mahout 


idation) 的 划分 和 测试 方式 。 其 核心 思想 是 每 一 轮 都 拿 出 大 部 分 数 


标注 数据 中 的 一 个 数据 实例 来 当 作 验 证 资料 ， 
(K-1) 份 样本 用 来 让 











居 实 例 进行 建 模 ， 然 后 











建立 的 模型 对 留 下 的 小 部 分 实例 进行 预测 ， 最 终 对 本 次 
交叉 验证 的 目的 是 为 了 得 到 可 靠 稳 定 的 模型 ， 其 最 常见 的 形式 是 留 一 验证 和 K 折 交叉 。 留 一 验证 

而 剩余 的 则 全 部 当 作 训练 数据 。 这 个 步骤 一 直 持 续 到 每 个 实例 都 被 当 作 一 次 验证 资料 。 而 K 折 交叉 验 
练 ， 最 后 1 份 被 保留 作为 验证 模型 的 测试 数据 。 如 此 交叉 验证 重复 K 次 ， 每 个 1/K 子 样本 验证 一 次 ， 通 
交叉 过 程 可 按 如 下 形式 表示 : 











次 。 


























d, Test =d, a,U:…Uda, 
Test = (J Usal JA: 


Yest. = [jd el ad, 


中 10 最 为 常见 。 随 着 K 值 的 增 大 ， 训 练 的 成 本 就 会 变 高 ， 但 是 模型 可 


Et 
Be 





更 精准 。 当 标注 集 的 数据 规模 很 大 时 ，K 值 可 以 适当 小 一 些 ， 





反之 则 建议 K 








了 解 了 机 器 学 习 和 分 类 的 基本 知识 之 后 ， 你 会 发 现 相 关 算 法 本 身 的 实现 也 是 需要 大 量 的 专业 知识 的 ， 开 发 的 门槛 也 比较 高 。 如 果 一 切 从头 开 始 ， 整 个 流程 将 包括 构建 算法 模型 、 计 算 离 线 评估 的 指标 、 
打造 在 线 实时 服务 等 内 容 ， 完 成 所 有 这 些 我 们 才 有 可 能 满足 业务 的 需求 ， 如 此 之 长 的 战线 ， 对 于 竞争 激烈 的 电 商 而 言 是 无 法 接受 的 。 那 么 有 没有 现成 的 软件 可 以 帮助 我 们 完成 这 个 艰巨 的 任务 呢 ? 答案 是 肯 
定 的 。 这 里 将 介绍 两 个 常见 的 机 器 学 习 软 件 工具 : R 和 Mahout。 























1.5.1 _R 简 介 





R (https://www.r-project.org/) 提供 了 一 套 基 于 脚本 语言 的 解决 方案 ， 协 助 没有 足够 计算 机 编程 知识 的 用 户 进行 机 器 学 习 的 测试 ， 并 快速 地 找到 适合 的 解决 方案 。R 昌 然 只 有 一 个 字母 ， 但 是 其 代表 
了 一 整套 的 方案 ， 包 括 R 语 言及 其 对 应 的 系统 工具 。 早 在 1980 年 左右 诞生 了 一 种 9 语言 ， 它 广泛 应 用 于 统计 领域 ， 而 R 语 言 是 它 的 一 个 分 支 ， 可 以 认为 是 S 语 言 的 一 种 实现 。 相 对 于 Java 和 稍 后 要 介绍 的 
Mahout 而 言 ，R 的 脚本 式 语言 更 加 容易 理解 ， 而 且 它 还 提供 了 颇 为 丰富 的 范例 供 大 家 直接 使 用 。 此 外 R 的 交互 式 环境 和 可 视 化 工具 也 极 大 地 提高 了 生产 效率 ， 人 们 可 以 从 广泛 的 来 源 获 取 数 据 ， 将 数据 整合 
到 一 起 ， 并 对 其 进行 清洗 等 预 处 理 ， 然 后 用 不 同 的 模型 和 方法 进行 分 析 ， 最 后 通过 直观 的 可 视 化 方式 来 展现 结果 。 当 然 ， 还 有 一 点 非常 关键 : R 是 免费 的 ， 相 对 于 价格 不 菲 的 商业 软件 而 言 ， 它 的 性 价 比 实在 
是 太 高 了 。 下 面 是 R 的 几 个 主要 功能 。 
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“ 交互 式 的 环境 : 人 具有 良好 的 互动 性 。 用 有 图 形 化 的 输入 输出 窗口 ， 对 于 编辑 语法 中 出 现 的 错误 会 马上 在 窗口 中 予以 提示 ， 还 会 记忆 之 前 输入 过 的 命令 ， 可 以 随时 再 现 、 编 辑 历史 记录 以 满足 用 户 的 
需要 。 输 出 的 图 形 可 以 直接 保存 为 JPG、BMP、PNG 等 多 种 图 片 格式 。 


























“ 丰富 的 包 (Package) : R 提 供 了 大 量 开 箱 即 用 的 功能 ， 称 为 包 。 你 可 以 将 其 理解 为 R 社 区 用 户 贡献 的 模块 ， 从 简单 的 数据 处 理 ， 到 复杂 的 机 器 学 习 和 数据 挖 据 算 法 ， 都 有 所 涵盖 。 截 至 本 书 撰写 的 时 
候 ， 包 的 总 数 已 经 超过 了 1 万 ， 横 跨 多 个 领域 。 初 次 安装 R 的 时 候 自 带 了 一 系列 默认 的 包 ， 会 提供 默认 的 函数 和 数据 集 ， 其 他 的 扩展 可 根据 需要 下 载 并 安装 。 
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“ 直观 的 图 示 化 : 俗话 说 ，“ 一 图 胜 千 言 ”， 图 形 展示 是 最 高 效 且 形象 的 描述 手段 ， 巧 妙 的 图 形 展示 也 是 高 质量 数据 分 析 报 告 的 必 备 内 容 。 因 此 一 款 优秀 的 统计 分 析 软 件 必须 具备 强大 的 图 形 展示 功 
能 ，R 也 不 例外 。 同 样 ， 画 图 都 有 现成 的 函数 可 供 调用 ， 包 括 直 方 图 (hist () ) 、 散 点 图 (plot () ) 、 柱 状 图 (barplot () ) 、 饼 图 (pie () ) 、 箱 线 图 (boxplot () ) 、 星 相 图 (stars () ) 、 脸 谱 图 
(faces () ) 、 茎 叶 图 (stem () ) 等 。 






































1.5.2 Mahout 简 介 


























虽然 R 语 言及 其 工具 非常 强大 ， 但 是 由 于 脚本 语言 的 限制 ， 其 性 能 往往 不 能 达到 大 规模 在 线 应 用 的 要 求 。 因 此 ， 还 可 以 考虑 Apache 的 Mahout (http://mahout.apache.org) 。Mahout 项 来 源 于 
Lucene 开 源 搜索 社区 对 机 器 学 习 的 兴趣 ， 其 初衷 是 希望 实现 一 些 常 见 的 用 于 数据 挖掘 的 机 器 学 习 算法 ， 并 拥有 良好 的 可 扩展 性 和 维护 性 ， 达 到 帮助 开发 人 员 方 便 快捷 地 创建 智能 应 用 程序 的 目的 。 该 社区 最 
初 基于 一 篇 关于 在 多 核 服务 器 上 进行 机 器 学 习 的 学 术 文章 进行 了 原型 的 开发 ， 此 后 在 发 展 中 又 并 入 了 更 多 广泛 的 机 器 学 习 方 法 。 因 此 ，Mahout 除 了 提供 最 广为人知 的 推荐 算法 之 外 ， 还 提供 了 很 多 分 类 、 
聚 类 和 回归 挖掘 的 算法 。 和 其 他 的 算法 系统 相 比 ，Mahout 通 过 Apache Hadoop 将 算法 有 效 地 扩展 到 了 分 布 式 系统 中 。 随 着 训练 数据 的 不 断 增 加 ， 非 分 布 式 的 系统 用 于 训练 的 时 间或 硬件 需求 并 不 是 线性 增 
加 的 ， 这 点 已 经 在 计算 机 系统 中 被 广泛 验证 。 因 为 5 售 的 训练 数据 而 导致 100 倍 的 训练 时 间 ， 那 将 是 用 户 无 法 接受 的 事情 。Mahout 可 以 将 数据 切 分 成 很 多 小 块 ， 通 过 Hadoop 的 HDFS 存 储 ， 通 过 Map- 
Reduce 来 计算 。 分 布 式 的 协调 处 理 可 将 时 间 消 耗 尽量 控制 在 线性 范围 之 内 由 。 因 此 ， 当 训练 的 数据 量 非常 庞大 的 时 候 ，Mahout 的 优势 就 会 体现 出 来 。 按 照 其 官方 的 说 法 ， 这 个 规模 的 临界 点 在 百 万 到 干 万 
级 ， 具 体 还 要 看 每 个 数据 对 象 和 挖掘 模型 的 复杂 程度 。 


















































































































































































































































Mahout 中 的 分 类 算法 ， 除 了 常见 的 决策 树 、 朴 素 贝 叶 斯 和 回归 ， 还 包括 了 支持 向 量 机 (Support Vector Machine) 、 随 机 森林 (Random Forests) 、 神 经 网 络 (Neural Network) 和 隐 马 尔 科 夫 
模型 (Hidden Markov Model) ， 等 等 。 支 持 向 量 机 属于 一 般 化 线性 分 类 器 ， 特 点 是 能 够 同时 最 小 化 经 验 误差 和 最 大 化 几何 边缘 区 。 随 机 森林 是 一 个 包含 多 个 决策 树 的 分 类 器 ， 在 决策 树 的 基础 上 衍生 而 
来 ， 其 分 类 标签 的 输出 由 多 个 决策 树 的 输出 投票 来 决定 ， 这 在 一 定 程度 上 弥补 了 单个 决策 树 的 缺陷 。 最 近 几 年 随 着 深度 学 习 (Deep Learning) 的 流行 ， 神 经 网 络 再 次 受到 人 们 的 密切 关注 。 众 所 周知 ， 人 
脑 是 一 个 高 度 复杂 的 、 非 线性 的 并 行 处 理 系统 。 人 工 建立 的 神经 网 络 起 源 于 对 生物 神经 元 的 研究 ， 并 试图 模拟 人 脑 的 思维 方式 ， 对 数据 进行 分 类 、 预 测 及 聚 类 。 隐 马尔 科 夫 模型 更 适合 有 序列 特性 的 数据 挖 
掘 ， 例 如 语音 识别 、 手 写 识别 和 自然 语音 处 理 等 ， 其 中 文字 和 笔画 的 出 现 顺 序 对 后 面 的 预测 都 会 很 有 帮助 。 




















































































































不 难 发 现 ，R 和 Mahout 都 实现 了 主要 的 机 器 学 习 算 法 。 那 么 ， 它 们 的 定位 是 否 会 重复 呢 ? 其 实 ， 它 们 有 各 自 的 长 处 ， 并 不 矛盾 。 通 常 ， 在 具体 的 算法 还 未 确定 之 前 ， 我 们 可 以 使 用 R 进 行 快速 测试 ， 选 
择 合适 的 算法 ， 预 估 大 体 的 准确 率 。 参 照 R 所 给 出 的 结果 ， 就 可 以 确定 是 否 可 以 采用 相关 的 学 习 算 法 ， 以 及 具体 的 模型 。 在 此 基础 之 上 ， 我 们 再 利用 Mahout 打 造 大 规模 的 、 在 线 的 后 台 系统 ， 为 前 端 提供 实 
时 性 的 服务 。 在 下 面 的 实践 部 分 ， 我 们 就 将 展示 这 样 的 工作 流程 。 


















































1.5.3 Hadoop 简 介 




















既然 提 到 了 Mahout 和 并 行 的 分 布 式 学 习 ， 就 需要 介绍 一 下 Apache Hadoop。Apache Hadoop 是 一 个 开源 软件 框架 ， 用 于 分 布 式 存储 和 大 规模 数据 处 理 。2003 年 ，Google 发 表 了 一 篇 论文 描述 他 们 
的 分 布 式 文件 系统 (Google File System，GFS) ， 为 另 一 个 开源 项 目 Nutch 攻 克 数 十 亿 网 页 的 存储 难题 提供 了 方向 。Nutch 和 Lucene 的 创始 人 Doug Cutting 受 到 此 文 的 启发 ， 和 团队 一 起 开发 了 Nutch 的 
分 布 式 文件 系统 (Nutch Distributed File System，NDFS) 。2004 年 ，Google 又 发 表 了 一 篇 重量 级 的 论文 《MapReduce: 在 大 规模 集群 上 的 简化 数据 处 理 》 (“MapReduce: Simplified Data 
Processing on Large Clusters”) 。 之 后 ，Doug Cutting 等 人 开始 尝试 实现 论文 所 阐述 的 计算 框架 MapReduce。 此 外 ， 为 了 更 好 地 支持 该 框架 ， 他 们 还 将 其 与 NDFS 相 结合 。2006 年 ， 该 项 目 从 Nutch 


搜索 引擎 中 独立 出 来 ， 成 为 如 今 的 Hadoop (http://hadoop.apache.org) 。 两 年 之 后 ，Hadoop 已 经 发 展 成 为 Apache 基 金 会 的 顶级 项 目 ， 并 应 用 于 很 多 著名 的 互联 网 公司 ， 目 前 其 最 新 的 版 本 是 2.x[。 








































































































Hadoop 发 展 的 历史 决定 了 其 框架 最 核心 的 元 素 就 是 HDFS 和 MapReduce。 如 今 的 Hadoop 系 统 已 经 可 以 让 使 用 者 轻松 地 架构 分 布 式 存储 平台 ， 并 开发 和 运行 大 规模 数据 处 理 的 应 用 ， 其 主要 优势 如 
下 。 








“ 透明 性 : 使 用 者 可 以 在 不 了 解 Hadoop 底 层 细节 的 情况 下 ， 开 发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 高 速 运算 和 存储 。 


“ 高 扩展 性 : 扩展 分 为 纵向 和 横向 ， 纵 向 是 增加 单机 的 资源 ， 总 是 会 达到 瓶颈 ， 而 横向 则 是 增加 集群 中 的 机 器 数量 ， 获 得 近似 线性 增加 的 性 能 ， 不 容易 达到 瓶颈 。Hadoop 集 群 中 的 节点 资源 ， 采 用 的 就 
是 横向 方式 ， 可 以 方便 地 进行 扩充 ， 并 获得 显著 的 性 能 提升 。 


“ 高 效 性 : 由 于 采用 了 多 个 资源 并 行 处 理 ， 使 得 Hadoop 不 再 受 限于 单机 操作 (特别 是 较 慢 的 磁盘 1/O 读 写 ) ， 可 以 快速 地 完成 大 规模 任务 。 加 上 其 所 具有 的 可 扩展 性 ， 随 着 硬件 资源 的 增加 ， 性 能 将 会 
得 到 进一步 的 提升 。 


“ 高 容错 和 高 可 靠 性 : Hadoop 中 的 数据 都 有 多 处 备份 ， 如 果 数 据 发 生 丢失 或 损坏 ， 其 能 够 自动 从 其 他 副本 (Replication) 进行 复原 。 类 似 的 ， 失 败 的 计算 任务 也 可 以 分 配 到 新 的 资源 节点 ， 进 行 自动 重 
试 。 


“ 低 成 本 : 正 是 因为 Hadoop 有 良好 的 扩展 性 和 容错 性 ， 所 以 没有 必要 再 为 其 添置 昂贵 的 高 端 服务 器 。 廉 价 的 硬件 ， 甚 至 是 个 人 电脑 都 可 以 称 为 资源 节点 。 
“ 在 使 用 HDFS 的 实践 中 ， 人 们 还 发 现 其 存在 如 下 几 个 弱点 。 


“ 不 适合 实时 性 很 强 的 数据 访问 。 试 想 一 下 ， 对 于 一 个 应 用 的 查询 ， 其 对 应 的 数据 通常 是 分 散在 HDFS 中 不 同 数据 节点 上 的 。 为 了 获取 全 部 的 数据 ， 需 要 访问 多 个 节点 ， 并 且 在 网 络 中 传输 不 同 部 分 的 结 


果 ， 最 后 进行 合并 。 可 是 ， 网 络 传输 的 速度 ， 相 对 于 本 机 的 硬盘 和 内 存 读 取 都 要 慢 很 多 ， 因 此 就 拖累 了 数据 查询 的 执行 过 程 。 


“ 无 法 高 效 存储 大 量 小 文件 。 对 于 HDFS 而 言 ， 如 果 存 在 太 多 的 琐碎 文件 ， 那 就 意味 着 存在 庞大 的 元 数据 需要 处 理 ， 这 无 疑 大 大 增加 了 命名 节点 的 负载 。 命 名 节点 检索 的 效率 明显 下 降 ， 最 终 也 会 导致 整 
体 的 处 理 速度 放 缓 。 











不 过 ， 整 体 而 言 ，HDFS 还 是 拥有 良好 的 设计 的 ， 对 Hadoop 及 其 生态 体系 的 流行 起 到 了 关键 的 作用 。 它 所 提供 的 对 应 用 程序 数据 的 高 吞吐 量 访问 ， 非 常 适合 于 存储 大 量 数据 ， 例 如 用 户 行为 日 志 。 在 本 
书 的 第 11 章 关于 用 户 行为 跟踪 的 内 容 中 ， 我 们 将 展示 怎样 结合 使 用 HDFS 与 Flume。 





















































而 Hadoop 的 另 一 个 要 素 MapReduce， 其 核心 是 哈 希 表 的 映射 结构 ， 其 包含 如 下 几 个 重要 的 组 成 模块 。 








“ 数据 分 割 (Data Splitting) : 将 数据 源 进行 切 分 ， 并 将 分 片 发 送 到 Mapper 上 。 例 如 将 文档 的 每 一 行 作为 最 小 的 处 理 单元 。 





“ 映射 《Mapping) : Mapper 根 据 应 用 的 需求 ， 将 内 容 按 照 键 - 值 的 匹配 ， 存 储 到 哈 希 结构 中 <k1，v1>。 例 如 ， 将 文本 进行 中 文 分 词 ， 然 后 生成 < 牛奶 ，1> 这 样 的 配对 ， 表 示 “ 和 牛奶 ”这 个 词 出 现 了 一 


“ 洗 牌 (Shuffling) : 不 断 地 将 键 - 值 的 配对 发 给 Reducer 进 行 归 约 。 如 果 存 在 多 个 Reducer， 则 还 会 使 用 分 配 (Partitioning) 对 Reducer 进 行 选择 。 例 如 ，“ 和 牛奶 ”》 “巧克力 ”“ 海 鲜 ” 这 种 属于 商品 的 单 
词 ， 专 门 交 给 负责 统计 商品 列表 的 Reducer 来 完成 。 


: 归 约 (Reducing) : 分 析 所 接受 到 的 一 组 键 值 配 对 ， 如 果 是 与 键 内 容 相同 的 配对 ， 那 就 将 它们 的 值 进行 合并 。 例 如 ， 一 共 收 到 12 个 < 牛奶 ，1> ({< 和 牛奶 ,1>，< 和 牛奶 ，1>}…< 和 牛奶 ，1>}) ， 那 么 就 
将 其 合并 为 < 牛奶 ，12>。 最 终 “ 牛 奶 ”这 个 单词 的 词 频 就 统计 为 12。 




















为 了 提升 洗 牌 阶段 的 效率 ， 可 以 减少 发 送 到 归 约 阶段 的 键 - 值 配对 。 具 体 的 做 法 是 在 映射 和 洗 牌 之 间 ， 加 入 合并 (Combining) 的 过 程 ， 在 每 个 Mapper 节 点 上 先进 行 一 次 本 地 的 归 约 ， 然 后 只 将 合并 后 
的 结果 发 送 到 洗 牌 和 归 约 阶段 。 




















辐 1-4 展 示 了 MapReduce 框 架 的 基本 流程 和 对 应 的 模块 。 













Reducer3 一 > 






要 分割 “一 故人 映射 一 一 6 一 一 洗 牌 一 一 了》k 一 一 上 明 约 一 一 多 


图 1-4 MapReduce 的 基本 框架 








有 了 分 布 式 文件 系统 (HDFS) 和 分 布 式 计算 框架 MapReduce 这 两 驾 马 车 保驾 护航 ，Hadoop 系 统 近 几 年 的 发 展 可 谓 风 生 水 起 。 不 过 ， 人 们 也 意识 到 MapReduce 框 架 的 一 些 问 题 。 比 如 ， 工 作 跟 踪 节 
点 Job Tracker， 它 是 MapReduce 的 集中 点 ， 完 成 了 太 多 的 任务 ， 造 成 了 过 多 的 资源 消耗 ， 存 在 单 点 故障 的 可 能 性 较 大 。 而 在 任务 跟踪 (Task Tracker) 节点 端 ， 用 任务 的 数量 来 衡量 负载 的 方式 则 过 于 简 
单 ， 没 有 考虑 中 央 运 算 器 CPU、 内 存 和 硬盘 等 的 使 用 情况 ， 有 可 能 会 出 现 负载 不 均 和 某 些 节点 的 过 载 。Map 和 Reduce 任 务 的 严格 划分 ， 也 可 能 会 导致 某 些 场合 下 系统 的 资源 没有 被 充分 利用 。 





































































































面 对 种 种 问题 ， 研 发 人 员 开始 思考 新 的 模式 ， 包 括 Apache Hadoop YARN (Yet Another Resource Negotiator) DB] 等 。Apache Hadoop YARN 是 一 种 新 的 资源 管理 器 ， 为 上 层 应 用 提供 了 统一 的 
Hadoop 资 源 管理 和 调度 。YARN 将 工作 跟踪 (Job Tracker) 节点 的 两 个 主要 功能 分 成 了 两 个 独立 的 服务 程序 : 全 局 的 资源 管理 器 (Resource Manager) 和 针对 每 个 应 用 的 主 节点 (Application 
Master) 。 如 此 设计 是 为 了 让 子 任务 的 监测 进行 分 布 式 处 理 ， 大 幅 减 少 了 工作 跟踪 节点 的 资源 消耗 。 同 时 ， 这 里 所 说 的 应 用 既 可 以 是 传统 意义 上 的 MapReduce 任 务 ， 也 可 以 是 基于 有 向 无 环 图 (DAG) 的 
任务 。 因 此 ， 在 YARN 的 基础 上 ， 甚 至 还 可 以 运行 Spark 和 storm 这 样 的 流 式 计 算 和 实时 性 作业 ， 并 利用 Hadoop 集 群 的 计算 能 力 和 丰富 的 数据 存储 模型 ， 提 升 数据 共享 和 集群 的 利用 率 。 对 于 Hadoop 更 多 
细节 感 兴趣 的 读者 ， 可 以 阅读 《大 数据 架构 商业 之 路 》 的 第 3 章 和 第 4 章 。 



















































































四 分 布 式 系统 有 一 些 额 外 消耗 用 于 通信 和 协调 ， 例 如 在 网 络 中 传输 数据 ， 因 此 无 法 保证 资源 被 100% 利 用 。 
[中 由 于 历史 的 原因 ，Hadoop 的 版 本 号 有 点 复杂 ， 同 时 存在 0.x、1.x 和 2.x， 具 体 可 以 参见 Apache 的 官网 。 


[3] http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/index.html 


1.6.1 “实验 环境 设置 











帮助 读者 熟悉 理论 知识 并 不 是 本 书 的 最 终 目的 。 为 了 展示 分 类 任务 的 常规 实现 ， 我 们 会 实践 一 个 假想 的 案例 ， 让 机 器 对 18 类 共 28000 多 件 商品 进行 自动 分 类 。 下 面 是 商品 数据 的 片段 : 






































ID Title Cate CategoryName 

J” 克扣 先 邦 窗 有 机 3 况 力 (5 区 力 味 夹 和 了 20292 褒 。。 1。 饼干 
交 奥 利 奥 原味 夹 ， EE 3909/ 伐 于 饼干 

3 。 嘉 顿 香 黎 注 饼 225g 饼干 

4 Aji i 二 472.5g/ 袋 1 饼干 

5 。 趣 多 多 曲 奇 饼干 经 典 巧克力 原味 285g/ 伐 1 饼干 

6 趣 多 多 曲 奇 饼干 经 典 巧克力 原味 2859/ 袋 2 1 饼干 
学 Aji 尼 西 亚 惊 奇 脆 片 饼干 起 士 味 200g/ 袋 饼干 

8 ”格力 高 百 醇 抹茶 慕 斯 + 提 拉 米 苏 + 芝士 kagr3& 1 饼干 
9 ” 奥 利 奥 巧克力 味 夹心 饼干 390g/ 袋 饼干 

10 ” 趣 多 多 巧克力 味 曲 奇 饼干 香 脆 米粒 味 85g/ 袋 1 饼干 
趣 多 多 巧克力 味 曲 奇 饼干 香 脆 米粒 味 85g/ 袋 X 5 1 饼干 
说 








可 以 看 到 ， 每 条 记录 有 4 个 字段 ， 包 括 商品 的 ID (ID) 、 商 品 的 标题 (Title) 、 


分 类 的 ID (CategoryID) 和 分 类 的 名 称 (CategoryName) 等 。 完 整 的 数据 集合 位 于 : 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Classification/listing.txt 


注 
Os 本 书 所 有 案例 中 的 测试 数据 ， 包 括 以 上 的 商品 数据 都 是 虚构 的 ， 仅 供 教学 和 实验 使 用 。 























针对 这 些 数据 ， 我 们 将 分 别 使 用 R 包 和 Mahout 对 其 进行 分 类 处 理 。 此 外 ， 
的 IDE 环 境 (Neon.1a Release (4.6.1) ) 来 实现 。 




















目前 运行 RA、Mahout、 中 文 分 词 及 相关 代码 的 硬件 是 一 台 2015 款 的 iMac 一 体 机 ， 在 后 文中 我 们 将 为 它 冠 以 iMac2015 的 代号 ， 其 CPU 为 Intel Core i74.0GHz， 内 存 为 16GB， 


示 。 


Hardware Overview: 
Model Name: iMac 
Model Identifier': 
Processor Name: 
4 GHz 


Processor Speed: 
Number of Processors: 1 
Total Number of Cores: 4 


256 KB 
8 MB 
16 GB 


L2 Cache (per Core): 
L3 Cache: 
Memo 


iMac17 1 
Intel Core i7 


请 不 要 将 其 内 容 或 产生 的 结论 用 于 任何 生产 环境 。 











由 于 测试 数据 包含 中 文 标题 ， 因 此 还 需要 中 文 分 词 软件 对 其 进行 处 理 。 相 关 的 编码 将 采用 Java 语 言 (JDK 1.8) ， 以 及 Eclipse 
































体 配置 如 








1-5 所 








[ 











图 1-5 iMac2015 的 配置 


下 面 将 展示 并 分 析 每 个 关键 的 步骤 ， 直 至 机 器 可 以 对 商品 合理 分 类 。 


1.6.2 ”中 文 分 词 


在 对 文本 进行 分 类 测试 之 前 ， 首 先 要 将 文本 转换 成 机 器 能 够 理解 的 数据 来 表示 。 对 于 这 个 步骤 ， 一 种 常见 的 方法 是 词 包 (Bag of Word) ， 


即将 文本 按照 单词 进行 划分 ， 并 建立 字典 。 每 个 唯一 的 单词 





则 是 组 成 字典 的 词 条 ， 同 时 也 成 为 特征 向 量 中 的 一 维 。 最 终 文本 就 被 转换 成 为 拥有 多 个 维度 的 向 量 。 对 于 英文 等 拉丁 语 ， 单 词 的 划分 是 非常 直观 的 ， 空 格 和 标点 符号 就 可 以 满足 大 多 数 的 需求 。 然 而 ， 对 于 
中 文 而 言 却 要 困难 得 多 。 中 文 只 有 字 、 句 和 段 能 够 通过 明显 的 分 界 符 来 简单 划 界 ， 词 与 词 之 间 没 有 一 个 形式 上 的 分 界 符 。 为 此 ， 中 文 分 词 的 研究 应 运 而 生 ， 其 目的 就 是 将 一 个 汉字 序列 切 分 成 一 个 个 单独 的 














词 。 目 前 有 不 少 开源 的 中 文 分 词 软件 可 供 使 











， 这 里 使 





http://www.oschina.net/p/ikanalyzer/ 




















知名 的 IKAnalyzer， 你 可 以 通过 如 下 链接 下 载 其 源码 和 相关 的 配置 文件 : 





Eclipse Neon.1a Release (4.6.1) 的 版 本 在 默认 的 情况 下 ， 自 带 了 Maven[] 的 插件 ， 我 们 可 以 建立 一 个 Maven 项 目 并 导入 IKAnalyzer 的 源码 。 图 1-6 展 示 了 Maven 项 目的 建立 。 


项 目 中 的 pom.xml 内 容 配置 如 下 : 


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/ 
2001/xMLSchema-instance" 

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/ 
xsd/maven-4.0.0.xsd"> 

<modelVersion>4.0.0</modelVersion> 


<groupId>ChineseSegmentation</groupId> 
<artifactId>IKAnalyzer</artifactId> 
<version>0.0.1-SNAPSHOT</version> 
<packaging>jar</packaging> 


<name>IKAnalyzer</name> 
<url>http://maven.apache.org</url> 


<properties> 
<project .build.sourceEncoding>UTF-8</project .build.sourceEncoding> 
</properties> 














<dependencies> 


<!-- https://mnrepository.com/artifact/org.apache.lucene/ 

lucene-analyzers-common 一 -> 

<dependency> 
<groupId>org.apache.1lucene</groupId> 
<artifactId>lucene-analyzers-common</artifactId> 
<version>4.0.0</version> 


</dependency> 

<!-- https://mvnrepository.com/artifact/org.apache.lucene/ 
lucene-queryparser --> 

<dependency> 


<groupId>org.apache.1lucene</groupId> 
<artifactId>lucene-queryparser</artifactId> 
<version>4.0.0</version> 

</dependency> 


<dependency> 
<groupId>junit</groupId> 
<artifactId>junit</artifactId> 
<version>3.8.1</version> 
<scope>test</scope> 

</dependency> 

</dependencies> 
</project> 














其 中 加 入 了 lucene-analyzers-common 和 lucene-queryparser 的 依赖 。 这 样 IKAnalyzer 的 源码 就 可 以 编译 成 功 。 你 可 以 从 下 面 的 链接 访问 已 建成 的 IKAnalyzer Maven 项 目 











https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Classification/IKAnalyzer 


在 org.wltea.analyzer.sample.IKAnalzyerDemo 的 基础 上 ， 我 们 编写 了 org.wltea.analyzer.sample.IKAnalzyerForListing， 其 主要 的 函数 如 下 : 





public static void ProcessListing (String inputFileName, String outputFileName) { 








tevy { 
br = new BufferedReader (new FileReader (inputFileName)); 
Pw = new PrintWriter (new FileWriter (outputFileName)); 
String strLine = br.readLine(); // 跳 过 header 这 行 
pw.printin(strLine); 
while ((strLine = br.readLine()) != null) { 
// 获取 每 个 字段 
String[] tokens = strLine.split("\t"); 
String id = tokens[0]; 
String title = tokens[1]; 
String cateId = tokens[2]; 
String cateName = tokens[3]; 
// 对 原 有 商品 标题 进行 中 文 分 词 
ts = analyzer.tokenStream("myfieldq"，new StringReader (title) ) 7 
// 获取 词 元 位 置 属性 
OffsetAttribute offset = ts.addAttribute (OffsetAttribute.class); 
// 获取 词 元 文本 属性 
CharTermAttribute term = ts.addAttribute (CharTermAttribute.class); 
// 获取 词 元 文本 属性 
TyPpeAttribute type = ts.addAttribute (TypeAttribute.class); 
// 重 置 TokenStream ( 重 置 StringReader) 
ts.reset (); 、 
// 和 迭代 获取 分 词 结果 
StringBuffer sbSegmentedTitle = new StringBuffer(); 
while (ts.incrementToken()) { 
sbSsegmentedTitle.append (term.toString () ) .append (™ "); 
} 
// 重新 写 入 分 词 后 的 商品 标题 
pw.println(String.format ("$s\t%s\t%s\t%s", id, sbSegmentedTitle. 
toString () .trim(), catelId, cateName)); 
// 关闭 TokenStream (关闭 StringReader) 
ts.end(); // Perform end-of-stream operations, e.g. set the final offset. 
} 
br.close () 7 
br = null; 
pw.close(); 
pw = null; 


} catch (Exception e) { 
e.printSstackTrace (); 
} finally { 
cleanup (); 


} 
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台 v" 辐 及 瑟 下 目 六 | 只 朋 辐 愉 六 仿 坟 | 坊 东 不"O.Q 加.G 筷 吕 YY B@ 为 : 习 PGOvD， 


局 ) Project Explorer 史 日 汉 J 了 二 口 册 四 storm-kafka/pom.xml 加 MyKafkaLogTopology.java 网 storm-kafka/pom.xml 网 storm-kafka/po 
SIKAnalyzer dl 1 日 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://mw.w3.org/26 
了 十 src/mainjiava 3 

> 出 org.witea.analyzer.cfg 
> 册 org.wltea.analyzer.core Select a wizard 
> 出 org.wltea.analyzer.dic Create a Maven Project 
> 出 org.witea.analyzer.lucene 
y 出 orgwltea.analyzer.query 
> [DIKQueryExpressionParser.java Wizards: 


yn ee 


VY 凯 orgwiltea.analyzer.sample v E> Maven 
> 四 IKAnalzyerDemo.java 请 check out Maven Projects from SCM 
> I IKAnalzyerForListing.java 次 M Module 
v [D LucenelndexAndSearchDemo.java edhe 
> LuceneIndexAndSearchDemo 
紫 ext.dic 
IKAnalyzer.cfg.xml 
围 stopword.dic 
bp Bi JRE System Library [J2SE-1.5)] 
> Bi Maven Dependencies 
p Cdist 
p Edoc 
Pp src 
> Etarget 
地 IKAnalyzer 中 文 分 词 器 V2012_FF 使 用 手册 .pdf 
LICENSE 
四 pom.xml 
Pp storm-kafka 
































Finish 





图 1-6 ”建立 Maven 项 目 ， 并 导入 IKAnalyzet 源 码 


其 功能 在 于 打开 原始 的 数据 文件 ， 读 取 每 一 行 ， 取 出 商品 的 标题 ， 采 用 IKAnalyzer 对 其 标题 进行 分 词 ， 然 后 生成 一 个 使 用 分 词 后 标题 的 新 数据 文件 。 新 数据 文件 的 片段 如 下 : 




















ID title Catego: CategoryName 

1 的 20g 24 全 1 饼干 
2 奥 利 奥 原 味 夹心 饼干 390g 袋 饼干 

3 嘉 顿 香 效 薄饼 225g 仿 1 FE 

4 ”aji 苏打 饼干 酵母 沽 盐 味 472.5g 袋 饼干 

5 ” 趣 多 多 曲 奇 饼干 经 典 巧 巧克力 家 味 285g 攻 1 冬 简 

6 多 多 曲 奇 饼干 经 典 巧克力 原 味 285g 袋 x 2 饼干 

7 aji 尼 西 3 et a es ea 饼干 _ 
8 格力 高 百 醇 抹 茶 莫 斯 提 拉 米 苏 芝 于 生 术 时 48g 3 盒 1 饼干 
9 奥 利 奥 巧克力 味 夹心 饼干 390g 袋 饼干 

10 趣 多 多 巧克力 味 曲 奇 饼干 香 脆 米粒 味 85g 袋 和 饼干 

11 趣 多 多 巧克力 味 曲 奇 饼干 香 脆 米粒 味 85g 袋 x 5 i 饼干 
12 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 





可 以 看 出 每 个 标题 都 被 进行 了 切 分 。 当 然 ， 我 们 也 发 现 中 文 分 词 软件 也 不 一 定 100% 准 确 。 在 上 述 的 例子 中 ， 对 于 某 些 品牌 的 切 分 出 现 了 错误 。 好 在 IKAnalyzer 是 支持 自 定义 字典 的 ， 我 们 可 以 编辑 
class 运 行 目录 中 的 ext.dic， 加 入 必要 的 品牌 词 ， 如 图 1-7 所 示 。 





a dist "caesses "godic 
图 doc 入 IKAnalyzer.cfg.xml 

号 IKAnalyzer 中 ... 使 用 手册 .pdf Ml META-INF 

了 LICENSE 加 org 


人 锡 pom.xml 图 stopword.dic 





图 1-7 修改 扩展 词典 ext.dic 


再 次 运行 分 词 ， 可 以 看 到 品牌 被 正确 地 切 分 出 来 了 : 





口 


title CategoryID CategoryName 

牟 梨 施 脆 澳 威 化 巧克力 也 克 为 谋 炎 心 20g 24 全 1 饼干 
奥 利 奥 原 味 夹心 饼干 390g 袋 饼干 

嘉 顿 香 区 薄饼 225g 盒 1 饼干 





‘OONPONPO 
Ba 
EE 
GE 
蘑 棱 李 
| 
臣 
办 
过 
过 
wn 


2 
1 饼 
芝 糕 味 48g 3 盒 1 饼干 
90' 1 饼干 
饼干 香 议 米粒 味 85g 袋 。 1 全 二 
F 香 脆 米粒 味 85g 袋 x 5 1 
‘Com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 








完整 的 分 词 后 的 数据 集合 位 于 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Classification/listing-segmented.txt 


当然 ， 中 文 分 词 是 一 个 很 有 挑战 性 的 课题 ， 特 别 是 针对 存在 歧义 的 情况 ， 分 词 算法 通常 无 法 保证 切 分 完全 准确 。 由 于 这 不 是 本 章 讨论 的 重点 ， 因 此 这 里 暂时 忽略 可 能 存在 的 错误 。 接 下 来 ， 就 是 使 用 R 中 
的 机 器 学 习 包 ， 对 分 词 后 的 标题 进行 分 类 。 


1.6.3 ”使 用 R 进 行 朴素 贝 叶 斯 分 类 


1.R 的 基础 
目前 为 止 ，R 的 最 新 版 本 是 3.3.2， 可 以 从 如 下 的 链接 选择 合适 的 平台 下 载 并 安装 : 
https://cran.r-project.org/mirrors.html 


安装 后 再 运行 ， 你 将 看 到 如 图 1-8 所 示 的 界面 ， 这 实际 上 就 是 一 个 输入 命令 的 终端 。 你 可 以 在 提示 符 “> ”后 面 输入 并 执行 一 条 命令 ， 或 者 通过 编写 脚本 一 次 性 执行 多 个 命令 。R 支 持 很 多 数据 类 型 ， 例 
如 向 量 、 和 矩阵 、 列 表 等 。 


Oe@® R Console 


= 


Q Help Search 








R version 3.3.2 (2016-10-31) -- "Sincere Pumpkin Patch" 
Copyright (C) 2016 The R Foundation for Statistical Computing 
platform: x86_64-apple-darwin13.4.0 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type "License()"” or "Licence() "for distribution details. 


Natural Language support but running in an English locale 
R is a collaborative project with many contributors. 
Type "contributors()"' for more information and 
"citation()”on how to cite R or R packages in publications. 
Type ‘demo()" for some demos, 'helpO)" for on-line help, or 
"help.start()' for an HTML browser interface to help. 
Type "'qO)"' to quit R. 
[R.app GUI 1.68 (7288) x86_64-apple-darwin13.4.0] 


[Workspace restored from /Users/huangsean/.RData] 
[History restored from /Users/huangsean/ .Rapp .history] 








图 1-8 及 启动 后 的 初始 画面 ， 显 示 了 版 本 和 帮助 信息 


下 面 让 我 们 看 几 条 基本 的 命令 ， 包 括 最 简单 的 函数 c () ， 它 可 以 让 你 输入 一 个 向 量 ， 例 如 下 面 的 两 条 命令 : 








> apple.a <- c(1,1,1,2,1,1) 
> apple.a 
由 





灵感 依旧 来 自前 述 的 水 果 案例 ， 第 一 条 命 “>apple.a<-c (1，1，1，2，1，1) ”是 将 苹果 a 虚 构 的 特征 值 以 向 量 的 形式 赋予 对 象 apple.a， 其 中 “<-” 表 示 赋 值 。 第 二 条 命令 是 显示 apple.a， 是 不 是 
很 简单 呢 ? 依 此 类 推 ， 可 以 手动 建立 多 个 水 果 对 象 ， 展 示 如 下 : 





Sy PPLle.B <- C(tlilyly1 
> apple.c <- c(2,3 
( 
( 


4 
1 
> 18t{) 

[1] "apple.a" "apple.b" "apple.c" "applea" "orange.a" 

[6] "orange.b" "orange.c" "watermelon.a" "watermelon.b" “watermelon.c" 
[11] “watermelon.d" 




















其 中 ls () 是 列 出 当前 定义 的 所 有 对 象 。 除 了 人 允许 用 户 在 终端 手工 输入 信息 之 外 ，R 还 支持 从 文本 文件 、 数 据 库 系统 ， 甚 至 是 其 他 统计 软件 上 导入 数据 ， 对 于 数据 源 的 整合 很 有 益处 。 有 了 这 些 数据 ， 要 
进行 基础 的 处 理 就 变 得 非常 快捷 。 下 面 的 命令 分 别 列 出 了 西瓜 a 作 为 数组 处 理 时 ， 其 最 大 值 、 最 小 值 、 均 值 、 中 位 数 、 方 差 和 标准 差 的 数值 。 









































> max (watermelon.a) 
[1] 3 

> min (watermelon.a) 
[1] 1 

> mean (watermelon.a) 
Ll) 2.333333 

> median (watermelon.a) 
[1] 2.5 

> var (watermelon.a) 
[1] 0.6666667 

> sd(watermelon.a) 
[1] 0.8164966 























至 此 ， 你 已 经 开始 了 R 工 作 的 第 一 步 ， 那 如 何 保存 这 些 成 果 呢 ? 别 急 ，R 还 提供 了 工作 间 (Workspace) 的 概念 ， 即 指 当前 的 工作 环境 。 通 过 保存 工作 间 的 镜像 ， 你 可 以 存储 用 户 定义 的 数据 对 象 和 一 些 
设置 ，R 在 下 次 启动 时 会 自动 加 载 所 有 这 些 内 容 。 在 这 些 基础 之 上 ， 让 我 们 看 看 如 何 利用 现 有 的 扩展 包 ， 快 捷 地 构建 基于 朴素 贝 叶 斯 的 分 类 器 。 



































2. 文 本 数据 预 处 理 

















在 使 用 R 的 扩展 包 对 商品 标题 进行 分 类 之 前 ， 除 了 中 文 分 词 以 外 ， 还 有 一 系列 其 他 的 预 处 理工 作 ， 具 体 如 下 。 





1) 打 散 样本 。 


2) 将 样本 加 载 到 R 的 变量 中 。 














) 将 样本 集合 变量 转换 为 文档 集 和 文档 -单词 矩阵 。 

4) 切 分 训练 和 测试 数据 集 。 

(1) 打 散 样本 

由 于 要 使 用 同一 个 样本 集合 生成 训练 数据 和 测试 数据 ， 所 以 需要 保证 不 同 分 类 的 样本 出 现 的 顺序 足够 随机 ， 和 否则 切 分 的 时 候 容易 导致 某 些 分 类 在 训练 数据 中 出 现 的 次 数 过 少 甚至 不 出 现 的 情况 。 














形 最 终 会 导致 拟 合 出 的 模型 会 有 偏差 ， 分 类 预测 效果 不 理想 ， 无 法 反映 理论 模型 的 真实 性 能 等 。 如 果 你 的 样本 按照 分 类 来 看 其 出 现 的 
可 以 看 出 ， 同 一 分 类 的 数据 都 是 紧密 相 邻 的 ， 一 个 分 类 结束 之 后 才 会 出 现下 一 个 分 类 ， 


这 种 情 
抽 序 已 经 足够 随机 ， 那 么 可 以 跳 过 这 一 步 。 从 listing-segmented.txt 中 





因此 不 满足 随机 性 的 条 件 ， 我 们 需要 某 种 随机 的 方式 ， 将 样本 出 现 的 顺序 打 散 。 









































通常 ， 打 散 可 以 分 为 两 种 方式 ， R 切 分 训练 和 测试 数据 时 进行 打 散 。 这 里 采 上 


系统 实践 时 重 


一 种 是 预先 将 样本 文件 的 顺序 打 乱 ， 另 一 种 是 在 使 


















































第 一 种 方法 ， 目 的 是 便于 用 户 重 不 同 的 算法 或 








现 此 处 的 实验 ， 并 在 后 





相同 的 数据 。 具 体 的 实现 请 参考 org.wltea.analyzer.sample.IKAnalzyerForListing 中 的 另 一 个 函数 processListingWithShuffle: 





public static void ProcessListingWithShuffle (String inputFileName, String output 
FileName) { 


try { 
br = new BufferedReader (new FileReader (inputFileName)); 
pw = new PrintWriter (new FileWriter (outputFileName)); 


ArrayList<String> samples = new ArrayList<String>(); 
String strLine = br.readLine(); // 跳 过 header 这 一 行 
Pw.Println (strLine) 7 

while ((strLine = br.readLine()) != null) { 


// 获取 每 个 字段 

String[] tokens = strLine.split(™\t"); 
String id = tokens[0]; 

String title = tokens[1]; 

String cateId = tokens[2]; 

String cateName = tokens[3]; 


// 对 原 有 的 商品 标题 进行 中 文 分 词 

ts = analyzer.tokenStream("myfield", new StringReader (title) ) 7 
// 获取 词 元 位 置 属性 
OffsetAttribute 
// 获取 词 元 文本 属性 
CharTermAttribute term = ts.addAttribute (CharTermAttribute.class); 
// 获取 词 元 文本 属性 

TypeAttribute type = ts.addAttribute (TypeAttribute.class); 


offset = ts.addAttribute (OffsetAttribute.class); 








// i ( 重 置 StringReader) 
ts.reset( 
// 基诺 稚 分 记 结 果 
StringBuffer sbSegmentedTitle = new StringBuffer(); 
while (ts.incrementToken()) { 
sbSegmentedTitle.append (term.toString ()) .append (™ "); 


samples.add (String.format ("%s\t%s\t%s\t%s", id, sbSegmentedTitle. 
toString() .trim(), cateId, cateName)); 


// 关闭 TokenStream (关闭 StringReader) 

ts.end(); // Perform end-of-stream operations, e.g. set the final offset. 
} 

br.close(); 

br = null; 


Random rand = new Random (System.currentTimeMillis()); 
while (samples.size() > 0) { 
int index = rand.nextInt (samples.size()); 
pw.println (samples.get (index)); 
samples .remove (index); 


} 


pw.close(); 
pw = null; 


} catch (Exception e) { 
e.printstackTrace () 7 














} finally { 
cleanup (); 
} 
} 
其 增加 的 主要 部 分 是 利用 Random 随 机 抽 函 数 ， 每 次 随机 抽取 出 一 个 样本 生成 新 的 序列 。 打 散 后 的 全 部 数据 可 参见 























https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Classification/listing-segmented-shuffled.txt 


下 面 的 文本 片段 是 该 文件 的 开头 部 分 : 















ID Title CategoryID CategoryName 

22785 samsung 三 星 galaxy tab3 t211 1g 8g wifi+3g 可 通话 平板 电脑 gps 300 万 像素 白色 5 电脑 
19436 samsung 三 星 galaxy fame s6818 智能 手机 td-scdma gsm 蓝 色 移动 定制 机 14 手机 

3590 金本位 美味 章 鱼 丸 250g 了 海鲜 水 产 

3787 莲花 居 预 售 阳澄湖 大 逆 蟹 实物 558 型 公 3.3-3.6 两 母 2.3-2.6 两 5 对 装 3 海鲜 水 产 

11671 rongs 融 氏 纯 玉米 胚芽 油 51 绿色 食品 非 转基因 送 300ml 小 油 1 瓶 9 食用 油 

23188 kerastase 诗 男士 系列 去 头 悄 洗 发 水 250ml 去 届 止 痒 男士 专用 进口 专业 洗 护 发 1 美发 护 发 
25150 dove 多 芬 丰 盘 宠 肤 沐浴 系列 乳 木 果 和 香草 沐浴 乳 400ml 5 眶 17 沐浴 露 

14707 魏 小 宏 weixiaohong 长 寿 吏 400 克 袋 装 美容 养颜 安徽 宣 城 水 东 特产 10 刺 类 

28657 80 茶 客 特级 平 阴 玫 现 花 玫瑰 茶 花草 茶 花茶 女人 蔡 冲 饮 50 克 袋 18 茶叶 

6275 德 蔷 兄弟 品牌 脆 香 米 脆 米 心 牛奶 巧克力 500g 散装 6 巧克力 

18663 十 月 稻田 五 常 稻 花香 大 米 5kg 袋 x 2 12 大 米 

15229 ge 





(2) 加 载 变 量 











接 下 来 使 











将 本 地 文件 系统 中 的 listing-segmented-shuffled.txt 导 入 为 R 的 变量 listing: 


read.csv 命 令 ， 





> listing <- read.csv("/Users/huangsean/Coding/data/BigDataArchitectureAndAlgori 
thm/listing-segmented-shuffled.txt", stringsAsFactors = FALSE, sep='\t') 





然后 查看 listing 的 基本 情况 : 





> str(listing) 

'data.frame': 28706 obs. of 4 variables: 

$ ID : int 22785 19436 3590 3787 11671 23188 25150 14707 28657 6275 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/ 
$ Title : chr "samsung 三 星 galaxy tab3 t211 1g 8g wifi+3g 可 通话 平板 电脑 gps 300 万 
像素 白色 " "samsung 三 星 galaxy fame s6818 智能 手机 td-scdma gsm 蓝 色 移动 定制 机 " "金本位 

美味 章 鱼 丸 250g" "莲花 居 预 售 阳澄湖 大 闸 蟹 实物 558 型 公 3.3-3.6 两 母 2.3-2.6 两 5 对 装 " http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/ 
$ CategoryID : int 15 143391617 10 18 6 http: ee ot oa a ea oe oo ne eno ebook/uncompressed/16351/0EBPS/Text/... 

$ CategoryName: chr "电脑 " "手机 " "海鲜 水 产 " "海鲜 水 产 " http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 

















加 


像 CategoryID、CategoryName 这 样 的 字段 ， 我 们 希望 它们 可 以 按照 唯一 性 进行 分 组 ， 因 此 将 其 转换 为 R 中 的 
再 次 查看 listing 的 基本 情况 : 











子 (factor) 类 型 。 首 先 将 factor (listing$CategoryID) 赋予 listing$CategoryID， 并 











> listing$CategoryID <- factor (listing$CategoryID) 

> str(listing) 

'data.frame': 28706 obs. of 4 variables: 

$ ID : int 22785 19436 3590 3787 11671 23188 25150 14707 28657 6275 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/ 
$ Title hi a 三 星 galaxy tab3 t211 1g 8g wifit3g 可 通话 平板 电脑 gps 300 万 

像素 白色 " "samsun galaxy fame s6818 智能 手机 td-scdma gsm 蓝 色 移动 定制 机 " "金本位 

美味 章 鱼 丸 250g" 是 人 居 预 售 阳澄湖 大 闸 蟹 实物 558 型 公 3.3-3.6 两 母 2.3-2.6 两 5 对 装 " http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/ 
$ CategoryID : Factor w/ 18 levels "1","2 rhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/..: 15 14 3 3 9 16 
$ CategoryName: chr "电脑 " "手机 " "海鲜 水 产 " 水 六 http://www.hzcourse.com/resource/readBook?path=/openresources/teach 4 ebook/uncompressed/16351/0EBPS/Text/.. 




















你 会 发 现 CategoryID 的 描述 发 生 了 变化 。 此 外 ， 还 可 以 使 用 table 命 令 查看 每 个 分 类 ID 的 数量 (也 就 是 每 个 分 类 的 样本 数量 ) : 

















> table (listing$CategoryID) 


站 及 二 4 5 6 潮 8 汪 10 村 二 12 J] 14 3 16 3 18 
1874 818 1815 665 334 1837 2331 1896 L533 1691 1804 2400 258 1800 1800 1844 L953 2013 





对 于 CategoryName， 可 以 进行 同样 的 操作 : 





> listing$CategoryName <- factor (listing$CategoryName) 
> table (listing$CategoryName) 


坚果 大 米 巧克力 手机 新 鲜 水 果 ” ”方便面 吏 类 沐浴 露 海鲜 水 产 电脑 纯 牛 奶 美发 护 发 茶叶 
进口 牛奶 面粉 食用 油 饮料 饮品 饼干 

1896 2400 1837 1800 1804 818 1691 1953 1815 1800 334 1844 2013 

665 258 1573 2331 1874 





(3) 生成 文档 -单词 矩阵 




















根据 之 前 所 述 ， 文 本 分 类 常常 采用 词 包 (Bag of Word) 的 数据 表示 方法 ， 所 以 我 们 需要 将 listing 变 量 转变 为 文档 对 单词 的 二 维和 矩阵。 首先 ， 我 们 要 使 用 install.packages () 函数 安装 R 的 文本 挖掘 包 











tm : 





> install .packages ("tm") 




















一 次 运行 扩展 包 的 安装 时 ， 可 能 需要 选择 最 佳 的 镜像 站 点 ， 如 图 1-9 所 示 。 














运行 后 R 会 自动 进行 安装 : 

















> install .packages ("tm") 
--- Please select a CRAN mirror for use in this session --- 
also installing the dependencies ‘NLP’, ‘slam’ 


trying URL "https: //cran.cnr.berkeley.edu/bin/macosx/mavericks/contrib/3.3/NLP 0.1-9.tgz"' 
Content type 'application/x-gzip' length 278807 bytes (272 KB) 





downl oaded 272 KB 


trying URL "https://cran.cnr.berkeley.edu/bin/macosx/mavericks/contrib/3.3/slam 
0.1-40.tgz' 
Content type 'application/x-gzip' length 106561 Bytes (104 KB) 





downl oaded 104 KB 


trying URL ‘https: //cran.cnr.berkeley.edu/bin/macosx/mavericks/contrib/3.3/tm 0.6-2.tgz' 
Content type 'application/x-gzip' length 665347 bytes (649 KB) 





downl oaded 649 KB 


The downloaded binary packages are in 
/var/folders/fr/gbl4wrwn5296_7rmyrhxlwsw0000gn/T//RtmprXQjRG/downloaded packages 





@ 妆 加 6 四 台 习 ) 世 


R version 3.3.2 (2016-10-31) -- "Sincere Pumpkin Patch" 


Copyright (C) 2016 The R Foundation for Statistical Computing 


PLatform: x86_64-apple-darwin13.4.0 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type ‘licenseQO" or "Licence()" for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type ‘contributorsO)' for more information and 
"citation()' on how to cite R or R packages in publications. 


Type 'demo()' for some demos, 'helpO)"' for on-line help, or 
"help.start(O)" for an HTML browser interface to help. 
Type 'q()" to quit R. 


[R.app GUI 1.68 (7288) x86_64-apple-darwin13.4.0] 


[Workspace restored from /Users/huangsean/.RData] 
[History restored from /Users/huangsean/.Rapp.history] 


> str(listing) 
"data.frame ' ; 28706 obs, of 4 variables: 

$ID :int 12345678910... 

$ title : chr “省 坟 脆 脆 狠 威 化 巧克力 巧克力 味 夹心 
$ CategoryID : Factor w/ 18 levels "1","2","3","4",..: 1 
$ CategoryName: chr “饼干 ”" 饼 干 ” "饼干 ” "饼干 ”. . . 

> table(listing$CategoryID) 


1 2 3 4 5 6 7 8 9 1 1 12 
1874 818 1815 665 334 1837 2331 1896 1573 1691 1804 2400 


> listing$CategoryName <- factor(Clisting$CategoryName) 
> table(listing$CategoryName) 


坚果 大 米 ”巧克力 手机 新 鲜 水 果 
1896 2400 1837 1800 
饼干 
1874 
> str(listing) 
"data.frame ' : 


方便 面 可 类 
1804 818 


28706 obs. of 4 variables: 

$ ID :int 12345678910... 

$ title : chr “省 蘑 脆 脆 答 威 化 巧克力 巧克力 味 夹心 
$ CategoryID : Factor w/ 18 levels "1","2","3","4",..: 11 
$ CategoryName: Factor w/ 18 levels "坚果 "," 大 米 ",..: 18 18 
> listing_corpus <- VCorpus(VectorSource(listing$title)) 
Error: could not find function "VCorpus" 

> install.packages("tm") 

--- Please select a CRAN mirror for use in this session --- 




















然后 使 用 library () 函数 加 载 tm: 








1-9 安装 R 扩 展 包 时 ， 


Philippines [https] 
Russia (Moscow) [https] 
Serbia [https] 


-Spain (A Corufa) [https] 
Spain (Madrid) [https] 


Sweden [https] 
Switzerland [https] 
Taiwan (Chungli) [https] 
Turkey (Denizli) [https] 
UK (Bristol) [https] 


UK (Cambridge) [https] 
9 UK (London 1) [https] 


USA (IA) [https] 
USA (IN) [https] 
USA (KS) [https] 


"USA (MI 1) [https] 
让 USA (TN) [https] 


USA (TX) [https] 
(HTTP mirrors) 


选择 镜像 站 点 


R Console 








> library (tm) 
Loading required package: NLP 














加 载 完 成 后 ， 就 可 以 使 用 VCorpus (VectorSource (listing$Title) ) 命令 ,将 listing 的 Title 字 段 取 出 并 转变 为 文档 集合 listing_corpus。 命 令 inspect (listing_corpus[1: 3]) 可 以 帮助 你 检视 前 3 个 标 
题记 录 的 基本 情况 : 








> listing corpus <- VCorpus (VectorSource (listing$Title)) 

> print (listing corpus) 

<<VCorpus>> 

Metadata: corpus specific: 0, document level (indexed): 0 
Content: documents: 28706 

> inspect (listing corpus[1:3]) 

<<VCorpus>> 

Metadata: corpus specific: 0, document level (indexed): 0 
Content: documents: 


[[1]] 
<<PlainTextDocument>> 
Metadata: 

Content: chars: 66 


[[2]1] 
<<PlainTextDocument>> 
Metadata: 7 
Content: chars: 57 


[[3]] 
<<PlainTextDocument>> 
Metadata: 7 
Content: chars: 16 











下 一 步 是 使 用 DocumentTermMatrix () 函数 从 listing_corpus 获 取 文 档 -单词 矩阵 listing_dtm : 











> listing dtm <- DocumentTermMatrix(listing corpus, Control=1ist (wordLengths=c (0, Inf) ) ) 
> listing dtm 二 

<<DocumentTermMatrix (documents: 28706, terms: 16458) >> 

Non-/sparse entries: 359791/472083557 


Sparsity : 100% 
Maximal term length: 25 
Weighting : term frequency (tf) 














其 中 ， 需 要 注意 的 是 ，DocumentTermMatrix 函 数 原本 是 针对 英文 单词 进行 编码 的 。 由 于 只 包含 1 个 或 2 个 字母 的 英文 单词 基本 上 都 没有 意义 ， 所 以 这 个 函数 默认 会 去 除 字符 长 度 小 于 3 的 单词 。 但 是 ， 
这 里 处 理 的 是 中 文 ， 而 且 很 多 重要 的 中 文 词 都 是 少 于 3 个 字符 的 ， 例 如 本 案例 中 的 “牛奶 ” “茶叶 ”“ 手 机 ”“ 水 ”“ 酒 ”等 。 这 些 词 都 是 分 类 的 重要 线索 ， 不 能 丢弃 ， 所 以 我 们 要 加 上 参数 
control=list (wordLengths=c (0，Inf) ) ， 保 留 全 部 的 中 文 词 ， 单 词 总 数量 是 16458， 文 档 总 数量 是 28706。 下 一 步 是 使 用 convert 函 数 将 矩阵 中 的 词 频 tf 转变 为 在 R 中 朴素 贝 叶 斯 分 类 所 需 

的 “Yes” 和 “No” 值 : 






































> convert <- function(x) { x <- ifelse(x > 0, "Yes", "No") } 
> listing all <- apply(listing dtm, MARGIN = 2, convert) 





(4) 切 分 训练 和 测试 集 





在 正式 上 线 之 前 ， 监 督 式 学 习 算法 很 重要 的 一 步 就 是 进行 离线 的 测试 。 针 对 标注 的 数据 我 们 可 以 切 分 出 训练 和 测试 集合 ， 来 实现 这 个 目标 。 由 于 之 前 已 经 打 散 了 样本 数据 ， 所 以 可 以 直接 将 前 90% 的 数 
据 作 为 训练 样本 ， 后 10% 的 作为 测试 样本 : 











> listing train <- listing all[1:25835, ] 
> listing test <- listing all[25836:28706, ] 

















除了 样本 内 容 的 切 分 ， 分 类 标签 也 需要 切 分 ， 我 们 可 以 使 用 CategorylD 或 CategoryName 来 实现 : 











> listing train labels <- listing[1:25835, ]$CategoryID 
> listing test labels <- listing[25836:28706, ]$CategoryID 





前 面 也 提 到 过 ， 如 果 你 的 样本 数据 尚未 提前 打 散 ， 那 么 也 可 以 在 R 中 进行 此 步骤 : 





> split.data = function(data, p = 0.9, s = 888){ 
本 set.seed(s) 
+ index = sample(l:dim(data) [1]) 
+ train = data[index[1:floor (dim(data) [ 
+ test = datal[lindex[ ( (floor (dim(data) [1 
1) :dim(data) [1]]，] 
+ return(list (train = train, test = test)) 
+} 


] 


1] * P)]， 
] WU 本 


*P 


> twosets = split.datal(listing all, p = 0.9) 
> listing train = twosets$train 
> listing train = twosets$test 











后 面 使 用 convert 函 数 进行 转变 的 步骤 与 之 前 的 相似 。 








3. 训 练 、 预 测 和 评估 


实现 朴素 贝 叶 斯 的 R 扩 展 包 是 e1071， 安 装 该 包 的 命令 如 下 : 








> install .packages ("e1071") 

trying URL 'https://cran.cnr.berkeley.edu/bin/macosx/mavericks/contrib/3.3/el10 
71 1.6-7.tgz' 

Content type 'application/x-gzip' length 752286 bytes (734 KB) 





downloaded 734 KB 


The downloaded binary packages are in 
/var/folders/fr/gbl4wrwn5296_7rmyrhxlwsw0000gn/T//RtmprXQjRG/downloaded packages 
> library (e1071) 














然后 就 可 以 使 用 listing_train 进 入 训练 阶段 ， 实 现 模型 的 拟 合 了 : 








> listing classifier <- naiveBayes (listing train, listing train labels) 





模型 存放 于 listing_classifier， 它 包括 每 个 分 类 的 出 现 概率 : 





> listing classifier 
Naive Bayes Classifier for Discrete Predictors 


Calls 
naiveBayes.default (x = listing train, y = listing train labels) 


A-priori probabilities: 
listing train labels 


. 2 号 4 3 6 这 

8 9 10 11 1 13 14 

15 16 17 18 
0.065453842 0.028682021 0.063324947 0.023185601 0.011302497 0.063712019 0.080665763 
0.066034449 0.053802980 0.059686472 0.062279853 0.084730017 0.008747823 0.063208825 
0.062395974 0.064370041 0.068124637 0.070292239 


Conditional probabilities: 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 





在 Conditional probabilities 部 分 包含 了 每 个 词 在 不 同 分 类 中 出 现 的 概率 ， 可 以 通过 listing_classifier$tables 快 速 查看 某 个 特定 的 词 ， 例 如 : 





> listing classifier$tables[[' 小 米 ']] 


小 米 
listing train labels No Yes 
1 1.0000000000 0.0000000000 
2 0.9973009447 0.0026990553 
3 1.0000000000 0.0000000000 
4 1.0000000000 0.0000000000 
5 1.0000000000 0.0000000000 
6 1.0000000000 0.0000000000 
7 1.0000000000 0.0000000000 
8 1.0000000000 0.0000000000 
9 0.9992805755 0.0007194245 
10 1.0000000000 0.0000000000 
11 0.9993784960 0.0006215040 
12 1.0000000000 0.0000000000 
13 0.9955752212 0.0044247788 
14 0.9546846295 0.0453153705 
15 1.0000000000 0.0000000000 
16 1.0000000000 0.0000000000 
17 1.0000000000 0.0000000000 
18 1.0000000000 0.0000000000 
> listing | [' 牛 奶 ']] 
奶 
listing train labels No Yes 
- ” 1 0.9379065642 0.0620934358 
2 1.0000000000 0.0000000000 
3 1.0000000000 0.0000000000 
4 0.3238731219 0.6761268781 
5 0.4657534247 0.5342465753 
6 0.7982989064 0.2017010936 
7 0.9846449136 0.0153550864 
8 0.9994138335 0.0005861665 
9 1.0000000000 0.0000000000 
10 0.9948119326 0.0051880674 
11 0.9975139838 0.0024860162 
12 1.0000000000 0.0000000000 
13 1.0000000000 0.0000000000 
14 1.0000000000 0.0000000000 
15 1.0000000000 0.0000000000 
16 1.0000000000 0.0000000000 
17 0.9818181818 0.0181818182 
18 1.0000000000 0.0000000000 
> listing lassu tierst ob!esl [' 手 机 ']] 
一 手 
listing train labels No Yes 
和 ” 1 1.0000000000 0.0000000000 
2 1.0000000000 0.0000000000 
3 1.0000000000 0.0000000000 
4 1.0000000000 0.0000000000 
5 1.0000000000 0.0000000000 
6 1.0000000000 0.0000000000 
7 0.9990403071 0.0009596929 
8 0.9994138335 0.0005861665 
9 1.0000000000 0.0000000000 
10 1.0000000000 0.0000000000 
11 1.0000000000 0.0000000000 
12 1.0000000000 0.0000000000 
13 1.0000000000 0.0000000000 
14 0.3949785671 0.6050214329 
15 0.9950372208 0.0049627792 
16 1.0000000000 0.0000000000 
17 1.0000000000 0.0000000000 
18 0.9994493392 0.0005506608 





从 上 述 三 个 关键 词 的 例子 可 以 看 出 ， 


奶 ) 和 分 类 5 ( 纯 牛 奶 ) 中 出 现 的 概率 很 高 ; 


命令 如 下 : 


“小 米 ” 这 个 词 在 分 类 14 (手机 ) 中 有 一 定 的 出 现 概率 (注意 是 概率 而 不 是 绝对 次 数 ) ， 在 分 类 13 ( 
“手机 ”一 词 在 分 类 14 (手机 ) 中 出 现 的 概率 很 高 。 有 了 这 些 先 验 概率 ， 就 可 以 根据 贝 叶 斯 理论 预 估 后 验 概率 。 使 





回 



































粉 ) 中 也 有 一 点 出 现 概率 ; “牛奶 ”一 词 在 分 类 4 (进口 牛 
该 模型 对 测试 集合 listing_test 进 行 预测 的 








> listing test pred <- predict (listing classifier, listing test) 

















不 过 在 使 用 本 案例 的 数据 集合 时 ， 你 很 可 能 会 发 现在 运行 预测 函数 predict 之 后 ， 系 统 抛 出 了 异常 “Error in'[.default' (object$tables[[v]], ，nd) : subscript out of bounds” 





> Listing_test_pred <- predict(listing_classifier, listing_test) 


， 如 图 1-10 所 示 。 





Error in “`[.defaulLt`(object$tabLes[[vV]]，，nd) : subscript out of bounds 





经 过 仔细 排查 ， 我 们 发 现 出 现 异常 的 根本 原 


图 1-10 el1071 中 的 朴素 贝 叶 斯 分 类 器 抛 出 了 异常 


因 是 某 些 词 在 训练 样本 中 没有 出 现 过 ， 但 是 在 测试 样本 中 却 出 现 了 。 例 如 如 下 这 个 被 测试 的 样本 : 








1277 下 陵 山 pa 核桃 曲 奇 112g 3 每 一 口 都 能 吃 到 核桃 仁 山西 晋城 休闲 办 公 室 零食 
避 








列 ， 如 下 所 示 : 


其 中 包含 了 “都 能 ”这 个 词 ， 但 是 在 训练 样本 中 没有 出 现 过 “都 能 ”。 这 一 点 可 以 使 用 listing_classifier$tables 来 验证 ， 你 会 发 现 这 个 词 在 所 有 类 的 训练 样本 中 都 没有 出 现 过 ， 因 

















此 只 有 “No” 这 一 个 





> Pet Poa erm [都 能 ']] 


能 
listing train labels No 


oammmwm 


pppppppPPPPPPPPPPP 





而 查看 e1071 中 朴素 贝 叶 斯 的 实现 源码 ， 发 现 它 并 没有 考虑 这 种 极端 情况 : 





predict.naiveBayes <- function( 


object, 
newdata, 


type = c("class", “raw"), 
threshold = 0.001, 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/...) { 
type <- match.arg (type) 
newdata <- as.data.frame (newdata) 
attribs <- match (names (object$tables), names (newdata)) 
isnumeric <- sapply (newdata, is.numeric) 
newdata <- data.matrix (newdata) 
L <- sapply(l:nrow (newdata), function(i) { 
ndata <- newdata[i, ] 
L <- log(object$apriori) + apply (log (sapply (seq along (attribs), 
function(v) { 
nd <- ndata[lattribs[v]] 
if (is.na(nd)) rep(1l, length (object$apriori)) else { 
prob <- if (isnumeric[attribs[v]]) { 
msd <- object$tables[[v]] 


msd[, 2] [msd[, 2] = 0] <- threshold 
dnorm(nd, msd[, 1], msd[, 2]) 
} else object$tables[[v]][, nd] 
Prob [Prob 一 0] <- threshold 
prob 
})), 1, sum) 
if (type == "class") 
工 
else { 
## Numerically unstable: 
提 # L <- exp(L) 
## L / sum (DT) 


## instead, we use: 
sapply(L, function(lp) { 
1/sum(exp(L - 1p)) 
}) 
} 
好 


if (type == "class") 
factor (object$levels[apply(L, 2, which.max)], levels = object$levels) 
else t(L) 








object$tables[[v]][，nd] 并 未 考虑 第 2 列 不 存在 的 情况 ， 因 此 导致 分 类 器 抛 出 下 标 越界 的 异常 。 为 此 我 们 在 相应 的 部 分 加 入 判定 ， 并 针对 训练 样本 中 未 出 现 的 新 词 赋予 最 小 的 threshold 值 : 





if (dim(object$tables[[v]])[2] < 2) { 

prob<-vector (mode="numeric", length=0) 

for(i in 1:dim(object$tables[[v]])[1]) 

{ 
prob[i] <- 0 

} 

} else { 
prob <- if (isnumeric[attribs[v]]) { 
msd <- object$tables[[v]] 
msd[, 2] [msd[, 2] = 0] <- threshold 
dnorm(nd, msd[, 1], msd[, 2]) 
} else object$tables[[v]] [, nd] 


} 
prob[prob 一 0] <- threshold 
prob 





完整 的 修正 代码 位 于 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Classification/R/predict.naiveBayes.r 


再 次 运行 预测 函数 就 不 会 产生 越界 的 错误 了 ， 预 测 的 结果 会 保存 于 listing_test_pred 中 。 最 后 可 通过 gmodels 包 中 的 函数 进行 评估 ， 首 先 安装 相应 的 扩展 包 : 





> install.packages ("gmodels") 
also installing the dependencies ‘gtools’, ‘gdata’ 


trying URL 'https://cran.cnr.berkeley.edu/bin/macosx/mavericks/contrib/3.3/gtools_ 
3.5.0.tgz' 
Content type 'application/x-gzip' length 134356 bytes (131 KB) 


downloaded 131 KB 





trying URL 'https://cran.cnr.berkeley.edu/bin/macosx/mavericks/contrib/3.3/gdata_ 
2.17:0.tgz' 
Content type ‘'application/x-gzip' length 1136842 bytes (1.1 MB) 


downloaded 1.1 MB 








trying URL 'https://cran.cnr.berkeley.edu/bin/macosx/mavericks/contrib/3.3/gmodels_ 
.16.2. C9 
Content type 'application/x-gzip' length 72626 bytes (70 KB) 


downloaded 70 KB 





The downloaded binary packages are in 
/var/folders/fr/gbl4wrwn5296_7rmyrhxlwsw0000gn/T//RtmprXQjRG/downloaded packages 
> library (gmodels) 











然后 使 用 CrossTable () 函数 计算 混淆 矩阵 : 








> CrossTable (listing test pred, listing test_labels，Prop.chisq = FALSE, prop.t = FALSE, dnn = c(' 预 测 值 '，' 实 际 值 ')) 




















1-11 展 示 了 混淆 矩阵 的 局 部 内 容 ， 通 过 这 个 局 部 内 容 的 左上 角 可 以 看 出 ， 分 类 1 中 共有 177 个 测试 样 例 被 正确 地 预测 为 分 类 1， 该 类 的 精度 为 92.7%， 召 回 率 为 96.7%， 而 前 6 个 分 类 中 分 类 5 ( 纯 牛 
奶 ) 的 预测 性 能 最 差 ， 召 回 率 只 有 69%， 精 度 只 有 66%， 从 图 1-12 可 以 看 出 ， 主 要 是 纯 牛 奶 ( 非 进口 ) 和 进口 牛奶 两 个 分 类 容易 混淆 ， 从 字面 上 来 看 两 个 分 类 过 于 接近 。 混 湛 和 矩阵 全 部 内 容 可 以 参见 : 


[ 



































https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Cla-ssification/R/NaiveBayes.Results1.txt 


| 
预测 值 | 1 1 2 | 3 | 4 | 5 | 6 | 
------------- 1-----------|-----------|-----------|-----------|-----------|-----------|- 
1 | 177 | 0 | 0 | 0 | 0 | 7 | 
| 0.927 | 0.000 | 0.000 | 0.000 | 0.000 | 0.037 | 
| 0.967 | 0.000 | 0.000 | 0.000 | 0.000 | 0.037 | 
和 由 
2 | 1 76 | 2 | 0 | 0 | 0 | 
| 0.012 | 0.927 | 0.024 | 0.000 | 0.000 | 0.000 | 
| 0.005 | 0.987 | 0.011 | 0.000 | 0.000 | 0.000 | 
------------- |=------=-=--1------=-=---|---------=-|-----------1|----=------|---=-=------|- 
3. 1 0 | 上 174 | 0 | 0 | 0 | 
| 0.000 | 0.006 | 0.989 | 0.000 | 0.000 | 0.000 | 
| 0.000 | 0.013 | 0.972 | 0.000 | 0.000 | 0.000 | 
------------- 1-----------|-----------|-----------|-----------|-----------|-----------|- 
4 | 0 | 0 | 0 | 53 | 13 | 0 | 
| 0.000 | 0.000 | 0.000 | 0.779 | 0.191 | 0.000 | 
| 0.000 | 0.000 | 0.000 | 0.803 | 0.310 | 0.000 | 
------------- 1-----------|-----------|-----------|-----------|-----------|-----------|- 
5 | 0 | 0 | 0 | 13 | 29 | 0 | 
| 0.000 | 0.000 | 0.000 | 0.295 | 0.659 | 0.000 | 
| 0.000 | 0.000 | 0.000 | 0.197 | 0.690 | 0.000 | 
------------- |-----------1-----------1-----------1-----------1-----------1-----------|- 
6 | | 0 | 1 | 0 | 0 | 183 | 
| 0.005 | 0.000 | 0.005 | 0.000 | 0.000 | 0.989 | 
| 0.005 | 0.000 | 0.006 | 0.000 | 0.000 | 0.958 | 
| | | | | | 








1-11 朴素 贝 叶 斯 分 类 结果 的 混淆 算 阵 之 局 部 








br | 次 
53 | 13 | 
0.803 | 0.310 | 
| 
| 13 | 29 | 
| 0.197 | | 09.690 | 








1-12 分 类 4 (进口 牛奶 ) 和 分 类 5 ( 纯 牛 奶 ) 容易 混 消 


























总 体 来 说 ，18 个 分 类 中 有 16 个 分 类 的 召回 率 和 精度 都 在 90% 以 上 ， 全 局 的 准确 率 在 96% 以 上 ， 分 类 效果 较 好 。 当 然 ， 我 们 可 以 使 用 10-folder 的 交叉 验证 ， 轮 流 测试 10% 的 数据 并 获取 每 个 类 的 平均 召 



































率 和 精度 ， 以 及 全 局 的 平均 准确 率 。 

















给 定 机 器 学 习 的 模型 ， 我 们 可 以 改变 训练 样本 的 数量 ， 或 者 是 用 于 分 类 的 特征 ， 来 测试 该 模型 的 效果 。 这 里 将 训练 集合 放大 到 99% 的 标注 数据 ， 而 测试 样本 为 1% 的 标注 数据 : 











ting train <- listing all[1:28419, 


> 1is 

> 1ig 1 
> listing train labels <- listing[1:28419, ]$CategoryID 

> listing test labels <- listing[28420:28706, ]$CategoryID 

> listing classifier <- naiveBayes (listing train, listing train labels) 
> listing test pred <- predict (listing classifier, listing test) 

NG 


rossTable (listing _ test pred, listing test labels, prop.chisq = FALSE, prop.t = FRLSE，dnn = c(' 预 测 值 ',，' 实 际 值 ')) 

















司 1-13 展 示 了 混淆 和 矩阵 的 局 部 ， 而 完整 的 混淆 和 矩阵 位 于 : 








https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Cla-ssification/R/NaiveBayes.Results2.txt 








1-13 ”将 训练 样本 放大 到 99% 的 标注 数据 后 ， 朴 素 贝 叶 斯 分 类 结果 的 混淆 给 阵 之 局 部 











从 图 1-13 中 可 以 看 出 ， 某 些 类 别 的 召回 率 和 精度 有 所 提升 ， 而 某 些 却 下 降 了 ， 可 能 是 由 于 模型 过 拟 合 所 导致 的 。 整 体 的 准确 率 大 约 为 96.5%。 

















当然 ， 你 也 可 以 查看 贝 叶 斯 分 类 器 对 每 个 被 测 样 例 的 预测 值 。 可 以 通过 修改 预测 函数 predicate () 的 参数 type 为 “raw” 来 实现 ， 代 码 如 下 : 


> listing test pred <- predict (listing classifier, listing test, type = "raw") 

> listing test pred[1:3,] 
1 2 到 4 5 6 和 
8 9 10 地 1 13 14 
15 16 17 18 

[1,] 1.163562e-02 8.686446e-12 2.103992e-12 2.508276e-14 6.986207e-14 9.883640e-01 1.419304e-12 
4.030010e-07 1.039946e-13 6.245893e-11 4.309790e-14 3.826502e-16 1.896761e-09 1.470796e-20 
1.129724e-17 5.292009e-17 8.534417e-19 2.267523e-15 

[2,] 7.581626e-01 1.257191e-08 1.997998e-14 1.978235e-16 6.065871e-17 7.761154e-11 2.107551e-13 
2.418373e-01 4.168406e-14 1.328692e-07 3.947417e-16 3.505745e-17 1.252182e-15 5.676353e-16 
8.126072e-19 4.764065e-17 1.697768e-16 1.249436e-12 

[3,] 1.548534e-09 2.067730e-10 3.250368e-11 4.691759e-08 2.715113e-07 2.418692e-08 1.056756e-07 
2.312425e-10 9.023589e-10 4.037764e-11 3.655755e-09 1.269035e-08 3.647616e-11 3.340507e-11 
7.912837e-11 9.999994e-01 1.206560e-07 1.152458e-10 














此 刻 ， 查 看 listing_test_pred 的 值 就 会 发 现 ， 对 于 每 个 被 测试 的 样 例 ， 分 类 器 都 给 出 了 它 属 于 某 个 分 类 的 概率 。 


1.6.4 ”使 用 R 进 行 K 最 近邻 分 类 








当然 ， 对 于 同样 的 任务 可 以 尝试 不 同 的 分 类 模型 。 让 我 们 再 次 尝试 一 下 R 扩 展 包 class 中 的 KNN 分 类 。 数 据 的 预 处 理 过 程 是 类 似 的 ， 我 们 将 直接 从 之 前 获取 的 listing_dtm 开 始 : 























> convert 2 <- function(x) { x <- x} 

> listing all knn <- as.data.frame (apply (listing dtm, MARGIN=2, convert 2)) 
> listing train knn <- listing all knn[1:28419, J 

> listing test knn <- listing all knn[28420:28706, ] 


> listing train labels <- listing[1:28419, ]$CategoryID 
> listing test labels <- listing[28420:28706, ]$CategoryID 











这 里 保留 了 listing_dtm 中 的 词 频 tf 数值 ， 用 于 KNN 计 算 样 例 之 间 的 距离 ， 此 处 和 针对 朴素 贝 叶 斯 分 类 器 的 处 理 有 所 不 同 。 另 外 ， 考 虑 到 KNN 在 预测 阶段 的 时 间 复 杂 度 太 高 ， 此 次 测试 的 样本 也 控制 在 全 
体 数据 的 1%， 尽 管 如 此 ， 在 单 台 iMac 上 运行 如 下 预测 仍然 可 能 需要 数 十 分 钟 : 























> listing test pred knn <- knn(train = listing train knn, test = listing test knn, cl = listing train labels, k = 3) 
> CrossTable (listing test pred knn, listing test labels, prop.chisq = FALSE, prop.t = FALSE, dnn = c(" 预 测 值 '，' 实 际 值 ')) 














司 1-14 展 示 了 KNN 预 测 结果 和 标注 相 比 ， 混 湛 和 矩阵 的 局 部 内 容 。 完 整 的 混淆 矩阵 位 于 : 








https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Classification/R/KNN.Results.txt 


预测 值 | 和 和 | 3 | 4 1 
Se |==-======-= 1=-=-==-=== 一 -== [=-=-==--==== |----------- l==== 

1 10 | 0 | 0 | 0 | 

| 0.833 | 0.000 | 0.000 | 0.000 | 

| 1.000 | 0.000 | 0.000 | 0.000 | 
------------- |----------- |----------- |----------- |----------- 1---- 

2 | 0 | 号 0 | 0 | 

| 0.000 | 0.750 | 0.000 | 0.000 | 

| 0.000 | 0.750 | 0.000 | 0.000 | 
一 一 一 一 一 二 一 一 二 二 十 | 一 ========== = 一 一 = 一 |====--==-=~== | = |-=-- 

3 1 0 | 1 1 20 | 0 | 

| 0.000 | 0.045 | 0.909 | 0.000 | 

| 0.000 | 0.250 | 0.952 | 0.000 | 
===---------= |=--=------- [|----------- |----------- |----------- 1|---- 

4 1 0 | 0 | 0 | 4 1 

| 0.000 | 0.000 | 0.000 | 1.000 | 

| 0.000 | 0.000 | 0.000 | 0.800 | 
------------- |----------- [|----------- |----------- |----------- 1---- 

5 | 0 | 0 | 0 | 1 

| 0.000 | 0.000 | 0.000 | 0.333 | 

| 0.000 | 0.000 | 0.000 | 0.200 | 
------------- |----------- |----------- |----------- |----------- 1---- 

6 | 0 | 0 | 0 | 0 | 

| 0.000 | 0.000 | 0.000 | 0.000 | 

| 0.000 | 0.000 | 0.000 | 0.000 | 


图 1-14 KNN 分 类 结果 的 混淆 矩阵 之 局 部 

















在 以 上 的 测试 样本 上 使 用 KNN 分 类 算法 ， 最 终 获得 的 整体 准确 率 大 约 在 91.3%， 略 逊 于 朴素 贝 叶 斯 。 可 以 看 出 ， 相 比 KNN ， 朴 素 贝 叶 斯 分 类 模型 虽然 需要 学 习 的 过 程 ， 而 且 也 更 难 理解 ， 但 是 其 具有 良 























好 的 分 类 效果 ， 以 及 实时 预测 的 性 能 。 因 此 ， 在 现实 生产 环境 中 ， 我 们 可 以 优先 考虑 朴素 贝 叶 斯 。 








尽管 我 们 可 以 便捷 地 在 R 语 言 中 测试 不 同 的 分 类 算法 ， 但 是 它 也 有 一 定 的 局 限 性 ， 主 要 体现 在 如 下 几 个 方面 。 
' 性 能 : 有 属于 解释 性 语言 ， 其 性 能 比 不 上 C++、Java 这 样 的 编程 语言 ， 因 此 不 适合 应 用 于 大 量 的 在 线 服 务 。 
“ 并 行 性 : 及 最 常见 的 应 用 还 是 侧重 于 单机 环境 。 其 并 行 处 理 方案 是 存在 的 ， 例 如 和 Hadoop 结 合 的 RHadoop， 但 是 不 如 Mahout 和 Hadoop 结 合 得 那么 紧 


“ 集成 复杂 度 : R 和 其 他 主流 的 编程 语言 ， 例 如 Java， 也 可 以 集成 ， 但 是 比较 复杂 ， 开 发 成 本 较 高 。 

















鉴于 此 ， 下 面 来 介绍 一 下 Apache Mahout 中 的 分 类 实现 ， 它 不 仅 可 以 利用 Hadoop 来 开展 并 行 的 训练 ， 而 且 可 以 让 你 打造 实时 的 在 线 预 测 系统 。 


1.6.5 ”单机 环境 使 用 Mahout 运 行 朴素 贝 叶 斯 分 类 


1. 实 验 准备 




















为 了 达到 更 好 的 效果 ， 我 们 将 由 浅 入 深 地 进行 学 习 ， 首 先 来 学 习 在 单机 上 如 何 运行 Mahout 的 机 器 学 习 算法 一 一 朴素 贝 叶 斯 。 硬 件 仍然 使 用 2015 款 iMac 一 体 机 1 台 ， 软 件 环境 除了 之 前 采用 的 Java 语 言 
(JDK 1.8) 和 Eclipse IDE 环 境 (Neon.1a Release (4.6.1) ) 之 外 ， 当 然 还 需要 安装 Mahout。 这 里 部 署 的 是 版 本 号 为 0.9 的 Mahout， 你 可 以 在 这 里 下 载 并 解压 : 

















http://mahout.apache.org/general/downloads.html 





然后 根据 解压 的 目录 ， 相 应 地 设置 环境 变量 如 下 : 














export MAHOUT HOME=/Users/huangsean/Coding/mahout-distribution-0.9 
export PATH=$PATH:$MAHOUT HOME/bin 
export MAHOUT LOCAL=1 





注意 ， 这 里 也 设置 了 MAHOUT_LOCAL 变 量 ， 目 的 是 为 了 确保 当前 的 Mahout 是 在 单 台 机 器 上 运行 的 。 





2. 通 过 命令 行进 行 训练 和 测试 


在 编写 实时 性 预测 的 代码 之 前 ， 你 可 以 先 通过 Mahout 的 命令 行 模式 来 了 解 其 分 类 算法 的 工作 流程 。 为 了 这 项 任务 ， 首 先 准 备 原 始 的 实验 数据 。 数 据 的 内 容 依然 是 R 实 验 中 的 listing-segmented- 











shuffled.txt。 不 过 出 于 Mahout 的 需求 ， 我 们 为 每 件 商品 单独 生成 一 个 商品 文件 ， 内 容 是 商品 的 标题 ， 文 件 名 称 是 商品 的 ID， 并 将 同一 个 分 类 的 商品 文件 存放 在 同一 个 子 目 录 中 ， 



































子 目录 的 名 称 是 分 类 的 

















ID， 目 录 和 文件 的 组 织 如 图 1-15 所 示 ， 其 中 标题 为 “雀巢 脆 脆 灼 威 化 巧克力 巧克力 味 夹心 20g 24 盒 ”的 商品 ， 形 成 了 1.txt (商品 ID 为 1) 的 文件 ， 并 置 了 


上 述 完 整 的 数据 文件 位 于 : 


F 名 为 1 (分 类 ID 为 1) 的 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Classification/Mahout/listing-segmented-shuffled-mahout.zip 




















录 中 。 
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图 1-15 ”为 Mahout 准 备 的 数据 集 

















有 了 这 些 数 据 ，Mahout 进 行 朴素 贝 叶 斯 分 类 的 主要 步骤 具体 如 下 。 








1) 将 原始 数据 文件 转换 成 Hadoop 的 序列 文件 (SequenceFile) 。 序 列 文 件 是 Hadoop 所 使 用 的 文件 格式 之 一 ， 尽 管 目前 使 用 的 是 单机 模式 ， 但 Mahout 还 是 需要 读 取 这 种 格式 。 

















2) 将 序列 文件 中 的 数据 转换 为 向 量 。 向 量 是 使 用 词 包 (Bag of Word) 来 表示 文本 的 基本 方式 ， 这 步 操 作 和 R 语 言 中 DocumentTermMatrix 的 功能 相 类 似 。 




















3) 切 分 训练 样本 和 待 测 样本 集合 。 














4) 使 用 朴素 贝 叶 斯 算法 训练 模型 。 

















5) 使 用 朴素 贝 叶 斯 算法 测试 待 测 的 样本 。 











首先 使 用 mahout 命 令 的 seqdirectory 选 项 ， 将 原始 数据 转换 为 序列 文件 : 











[huangsean@iMac2015:/Users/huangsean/Coding]mahout seqdirectory -i /Users/huangsean 
/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-mahout/ -o / 
Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuff 

led-seq -ow 

MAHOUT LOCAL is set, so we don't add HADOOP CONF DIR to classpath. 

MAHOUT LOCAL is set, running locally 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
17/01/17 21:27:04 INFO driver.MahoutDriver: Program took 6513 ms (Minutes: 0.10855) 























其 中 -i 用 于 指定 输入 的 原始 数据 文件 用 于 ， 而 -o 用 于 指定 输出 的 序列 文件 ，-ow 表 示 覆 盖 已 有 的 结果 。 生 成 的 序列 文件 如 图 1-16 所 示 。 














Today 
Ml listing-segmented-shuffled-mahout * | SUCCESS 





天 listing-segmented-shuffled-seq 上 .part-m-00000.crc 


国 listing-segmented-shuffled-vec » 





图 1-16 新 生成 的 序列 文件 








再 使 用 seq2sparse 选 项 ， 将 该 part-m-00000 文 件 作为 输入 ， 获 取 稀 疏 向 量 : 











[huangsean@iMac2015:/Users/huangsean/Coding]mahout seq2sparse -i /Users/huangsean 
/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-seq/part— 

m-00000 -o /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segm 

ented-shuffled-vec -lnorm -nv -wt tf -a org.apache.lucene.analysis.core.Whitespace 

Analyzer 

MAHOUT LOCAL is set, so we don't add HADOOP CONF DIR to classpath. 

MAHOUT LOCAL is set, running locally 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
17/01/17 21:30:19 INFO driver.MahoutDriver: Program took 7904 ms (Minutes: 0.131 

73333333333334) 





















































其 中 ，-Inorm 表 示 使 用 了 归 一 化 。-wt tf 表示 权重 值 使 用 了 词 频 。 这 里 采用 词 频 是 为 了 和 之 前 R 的 实验 保持 一 致 ， 便 于 比较 分 类 的 效果 。 当 然 ， 还 可 以 通过 -wt tfidf， 使 用 tf-idf 的 机 制定 义 每 个 单词 维 
度 的 取 值 ， 该 机 制 的 具体 含义 将 在 第 4 章 有 关 搜 索引 擎 的 部 分 中 进行 介绍 。 另 外 ， 一 定 要 通过 -a org.apache.lucene.analysis.core.WhitespaceAnalyzer 来 指定 分 析 器 (analyzer) ， 如 果 不 指定 ， 那 么 
Mahout 将 默认 按照 英文 的 处 理 方式 ， 将 中 文 单词 都 切 分 为 单个 汉字 ， 这 可 能 会 对 最 终 的 分 类 结果 产生 负面 影响 。 由 于 之 前 已 经 使 用 IKAnalyzer 将 商品 的 标题 进行 了 中 文 分 词 ， 所 以 这 里 指定 以 空格 为 分 隔 
符 的 WhitespaceAnalyzer。 此 命令 执行 完毕 后 ， 我 们 将 获得 如 图 1-17 所 示 的 向 量 文件 : 
























































Today Today Today 
Ml listing-segmented-shuffled-mahout dictionary.file-0.cre -succEss 
Ml listing-segmented-shuffled-seq > ‘frequency.file-O.cre .part-r-00000.crc 


leting-segmented-shutfied-vec a dt-count 


~ dictionary.file-0 
frequency.file-0 
A tf-vectors 
Ml tokenized-documents 
Ml wordcount 





图 1-17 新 生成 的 向 量 文件 


下 一 步 就 是 将 该 向 量 文件 切 分 为 训练 数据 集 和 待 测 的 数据 集 : 








[huangsean@iMac2015:/Users/huangsean/Coding]mahout split -i /Users/huangsean/ 
Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-vec/tf-vectors 一 
trainingOutput /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing- 
segmented-shuffled-train --testOutput /Users/huangsean/Coding/data/BigDataArchitecture 
AndAlgorithm/listing-segmented-shuffled-test --randomSelectionPct 10 --overwrite -- 
sequenceFiles -xm sequential 

MAHOUT LOCAL is set, so we don't add HADOOP CONF DIR to classpath. 

MAHOUT LOCAL is set, running locally 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 
17/01/17 21:31:09 INFO driver.MahoutDriver: Program took 881 ms (Minutes: 0.0146 
83333333333333) 




















其 中 --randomSelectionPct 10 表 示 待 测 样本 的 占 比 为 10%， 也 就 是 90% 的 数据 用 于 训练 。 而 -xm sequential 表 示 在 单机 上 执行 ， 而 不 进行 MapReduce 操 作 。 下 一 步 就 是 执行 训练 过 程 ， 同 时 利用 -li 参 
数 来 生成 评测 所 用 的 类 标 索引 (labelindex) 文件 : 























[huangsean@iMac2015:/Users/huangsean/Coding]mahout trainnb -i /Users/huangsean/ 
Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-train -el -o / 
Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled 

-model -li /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing- 
segmented-shuffled-mahout-labelindex -ow 

MAHOUT LOCAL is set, so we don't add HADOOP CONF DIR to classpath. 

MAHOUT LOCAL is set, running locally 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
17/01/17 21:32:14 INFO driver.MahoutDriver: Program took 3037 ms (Minutes: 0.050 

616666666666664) 














生成 的 模型 model 目 录 和 类 标 索引 labelindex 文 件 如 图 1-18 所 示 。 其 中 类 标 索引 相当 于 考试 答案 ， 可 供 稍 后 的 离线 测试 使 用 。 























最 后 ， 通 过 训练 的 模型 目录 和 类 标 索引 ， 对 待 测 样本 进行 测试 和 评估 : 





[huangsean@iMac2015:/Users/huangsean/Coding]mahout testnb -i /Users/huangsean/ 
Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-test -m /Users/ 
huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled- 

model -1 /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented- 
shuffled-mahout-labelindex -ow -o /Users/huangsean/Coding/data/BigDataArchitecture 
AndAlgorithm/listing-segmented-shuffled-mahout-results 








Kappa 0.9613 

Accuracy 97.8484% 

Reliability 90.129% 

Reliability (standard deviation) 0.2563 

17/01/17 21:34:21 INFO driver.MahoutDriver: Program took 1460 ms (Minutes: 0.024 
333333333333332) 




















执行 完毕 后 Mahout 直 接 输 出 了 评估 结果 。 你 将 看 到 类 似 图 1-11 和 图 1-13 的 混淆 矩阵， 如 图 1-19 所 示 。 如 果 需 要 查阅 完整 的 矩阵 内 容 ， 可 以 访问 : 






































https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Classification/Mahout/listing-segmented-shuffled-mahout-results.txt 








此 外 你 还 可 以 看 到 准确 率 (Accuracy) 在 97.8%， 和 R 的 朴素 贝 叶 斯 分 类 实践 中 的 数据 96% 非 常 接近 。 两 者 的 相差 可 能 是 由 于 训练 和 测试 数据 集 的 切 分 不 一 致 ， 或 者 是 细微 的 分 类 器 实现 差异 所 导致 
的 。 从 分 类 的 结果 来 看 ， 整 体 效果 非常 理想 。 


3. 打 造 实时 预测 





























当然 ， 如 果 需 要 将 Mahout 运 用 到 线 上 服务 ， 那 么 上 述 离线 式 的 处 理 和 测试 还 远 远 不 够 。 我 们 可 以 利用 训练 阶段 所 生成 的 模型 文件 ， 创 建 一 个 实时 性 的 分 类 预测 模块 。 这 个 过 程 按 顺序 可 以 分 为 以 下 几 
EF 要 步骤 。 

















Yesterday 


嚼 | listing-segmented-shuffled-mahout 
listing-segmented-shuffled-mahout-labelindex 

MN listing-segmented-shuffled-mahout-results 

让 listing-segmented-shuffled-mahout.zip 


MN listing-segmented-shuffled-seq 
MN listing-segmented-shuffled-test 
MN listing-segmented-shuffled-train 
MN listing-segmented-shuffled-vec 





图 1-18 生成 的 模型 目录 和 类 标 索引 
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图 1-19 ”Mahout 测 试 后 给 出 的 混淆 从 阵 














1) 预 加 载 必 要 的 数据 ， 包 括 Mahout 训 练 命令 所 产生 的 朴素 贝 叶 斯 模型 、 类 标 索引 文件 和 分 类 1D/ 名 称 间 的 映射 。 
2) 对 实时 输入 的 文本 进行 中 文 分 词 。 
3) 将 分 词 结 果 转 变 为 单词 向 量 。 


4) 根据 训练 的 模型 和 单词 向 量 ， 给 出 分 类 的 预测 。 








下 面 是 一 段 用 于 演示 核心 流程 的 示例 代码 : 











public static void main (String[] args) throws Exception { 


// 指定 Mahout 朴 素 贝 叶 斯 分 类 模型 的 目录 、 类 标 文件 和 字典 文件 

String modelPath = "/Users/huangsean/Coding/data/BigDataArchitectureAnd 
Algorithm/listing-segmented-shuffled-model/"; 

String labelIndexPath = "/Users/huangsean/Coding/data/BigDataArchitectureAnd 
Algorithm/listing-segmented-shuffled-mahout-labelindex"; 

String dictionaryPath = "/Users/huangsean/Coding/data/BigDataArchitectureAnd 
Algorithm/listing-segmented-shuffled-vec/dictionary.file-0"; 


Configuration configuration = new Configuration(); 


// 加 载 Mahout 朴 素 贝 叶 斯 分 类 模型 ， 以 及 相关 的 类 标 、 字 典 和 分 类 名 称 映射 

NaiveBayesModel model = NaiveBayesModel .materialize (new Path (modelPath), 
configuration); 

StandardNaiveBayesClassifier classifier = new StandardNaiveBayesClassifier 
(model); 

Map<Integer, String> labels = BayesUtils.readLabelIndex (configuration, new Path 
(labelIndexPath) ) 7 

Map<String, Integer> dictionary = readDictionnary (configuration, new Path 
(dictionaryPath)); 

Map<String, String> categoryMapping = loadCategoryMapping () 7 


// 使 用 IKAnalyzer 进 行 中 文 分 词 
Analyzer ikanalyzer = new IKAnalyzer(); 
TokenStream ts = null; 


while (true) { 


BufferedReader strin=new BufferedReader (new InputStreamReader (System.in) ) 7 
System.out .Print (" 请 输入 待 测 的 文本 : ") 7 
String content = strin.readLine ()7 


if ("exit" .equalsIgnoreCase (Content) ) break; 


// 进行 中 文 分 词 ， 同 时 构造 单词 列表 
Map<String, Integer> terms = new Hashtable<String, Integer>(); 
ts = ikanalyzer.tokenStream("myfield", content); 
CharTermAttribute term = ts.addAttribute (CharTermAttribute.class); 
ts.reset () 7 
while (ts.incrementToken()) { 
if (term.length() > 0) 
String strTerm 
Integer termId 


term.toString (); 
dictionary.get (strTerm); 


if (termId != null) { 
if (!terms.containsKey(strTerm)) { 
terms .Put (strTerm, 0); 
} 
terms.put (strTerm, terms .get (strTerm) + 1); 
termsCnt ++; 


} 
} 
ts.end(); 
ts.close(); 


// 使 用 词 频 tf (term frequency) 构造 向 量 
RandomAccessSparseVector rasvector = new RandomAccessSparseVector 
(100000); 
for (Map.Entry<String, Integer> entry : terms.entrySet()) { 
String strTerm = entry.getKey () 7 
int tf = entry.getValue () 7 
Integer termId = dictionary.get (strTerm); 
rasvector.setQuick (termId, tf); 
} 


// 根据 构造 好 的 向 量 和 之 前 训练 的 模型 ， 进 行 分 类 
org.apache.mahout .math.Vector predictionVector = classifier.classifyFull 
(rasvector); 
double bestScore = -Double.MAX VALUE; 
int bestCategoryId = -1; 和 
for (Element element : predictionVector.all()) { 
int categoryId = element.index(); 
double score = element .get (); 
if (score > bestScore) { 
bestScore = score; 
bestCategoryId = categoryId; 
} 
} 
System.out .println(); 
String category = categoryMapping.get (labels.get (bestCategoryId) ) 7 
if (category == null) category = "未 知 "7 
System.out .println (String.format ("预测 的 分 类 为 : ss"， category) ); 
System.out .println(); 





} 


ikanalyzer.close(); 





代码 的 最 后 一 步 ，Mahout 将 计算 输入 文本 属于 不 同 分 类 的 概率 。 其 中 需要 注意 的 是 ，Mahout 对 概率 值 进行 了 一 定 的 数值 转换 ， 也 就 是 将 它们 转变 为 了 一 个 负数 ， 数 值 越 大 ， 表 示 概 率 越 高 。 所 以 ， 这 
段 代 码 找 出 了 拥有 最 大 值 的 分 类 。 如 果 是 多 分 类 问题 ， 可 以 取 最 大 的 n 个 数值 及 其 对 应 的 分 类 。 








其 他 辅助 的 数据 预 加 载 函数 如 下 : 














public static Map<String, Integer> readDictionnary (Configuration conf, Path dictionnaryPath) { 
Map<String, Integer> dictionnary = new HashMap<String, Integer>(); 
for (Pair<Text, IntWritable> pair : new SequenceFileIterable<Text， 
IntWritable> (dictionnaryPath, true, conf)) { 
dictionnary.put (pair.getFirst () .tostring(), pair.getSecond() .get ()); 


return dictionnary; 


} 


public static Map<Integer, Long> readDocumentFrequency (Configuration conf, Path 
documentFrequencyPath) { 

Map<Integer, Long> documentFrequency = new HashMap<Integer, Long>(); 

for (Pair<IntWritable, LongWritable> pair : new SequenceFileIterable<Int 
Writable, LongWritable> (documentFrequencyPath, true, conf)) { 

documentFrequency.put (pair.getFirst () .get (), pair.getSecond() .get () ) 7 
} 
return documentFrequency; 
} 


public static Map<String, String> loadCategoryMapping() { 


Map<String, String> categoryMapping = new HashMap<String, String>(); 
categoryMapping.put ("1", "便于 人 ; 

categoryMapping.put ("2", 
categoryMapping.put ("3", 
categoryMapping.put ("4", 
categoryMapping.put ("5", 
categoryMapping.put ("6", 
categoryMapping.put ("7", 
categoryMapping.put ("8", 
categoryMapping.put ("9", 
categoryMapping.put ("10", 了 
categoryMapping.put ("11"，" 新 鲜 水 果 ") ， 
categoryMapping.put ("12"，" 大 米 ") 7 
categoryMapping.put ("13"，" 面 粉 ") 7 
CategoryMapping.put ("14", 由 
CategoryMapping.put ("15", 
categoryMapping.put ("16", 
CategoryMapping.put ("17", "™Y 
categoryMapping.put ("18"， "茶叶 "); 












return categoryMapping; 











完整 的 代码 和 Maven 项 目 文件 ， 可 以 访问 : 














https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Cla-ssification/Mahout/MahoutMachineLearning 


编译 时 ， 需 要 在 pom.xml 中 加 入 Mahout 和 IKAnalyzer 的 依赖 包 : 





<!-- https://mvnrepository.com/artifact/org.apache.mahout/mahout-core --> 
<dependency> 
<groupId>org.apache.mahout</groupId> 
<artifactId>mahout-core</artifactId> 
<version>0.9</version> 
</dependency> 


<!-- https://mmnrepository.com/artifact/com.janeluo/ikanalyzer --> 
<dependency> 
<groupId>com.janeluo</groupId> 
<artifactId>ikanalyzer</artifactId> 
<version>2012 _u6</version> 
</dependency> 








编译 成 功 并 运行 main 函 数 ， 你 就 可 以 在 Console 窗 口中 输入 一 段 文本 ， 程 序 将 实时 给 出 分 类 的 预测 ， 如 图 1-20 所 示 。 最 后 输入 “exit” 并 退出 。 


FEIT PFC 


<terminated> NBClassifierLocal [Java Application] /Library/Java/JavaVirtualMachines/jdk1.8.0_92.jdk/Contents/Home/bin/java (Jan 17, 2017, 8 
SLF4]: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 

SLF4]: Defaulting to no-operation (NOP) logger implementation 

SLF4]: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details. 

请 输入 待 测 的 文本 : 牛奶 巧克力 














预测 的 分 类 为 : 巧克力 


请 输入 待 测 的 文本 : 虎 林 牌 大 米 
预测 的 分 类 为 : 大 米 

请 输入 待 测 的 文本 : Apple MacBook 
预测 的 分 类 为 : 电脑 

请 输入 待 测 的 文本 : exit 














1-20 “实时 预测 的 演示 








有 了 这 些 代码 的 基础 ， 就 可 以 为 线 上 应 用 (例如 ， 根 据 商 家 的 输入 为 其 实时 推荐 商品 分 类 ) 构建 预测 模块 、RESTFUL 风 格 的 API 等 。 
1.6.6 ”多 机 环境 使 用 Mahout 运 行 朴素 贝 叶 斯 分 类 


Mahout 最 早 是 基于 Hadoop 开 发 的 ， 当 然 也 支持 多 机 并 行 处 理 。 需 要 注意 的 是 ，Hadoop 的 MapReduce 计 算 模式 只 适用 于 批量 的 训练 和 评测 ， 并 不 适用 于 实时 的 预测 。 关 于 离线 批量 处 理 和 实时 处 理 
的 更 多 探讨 ， 可 参见 《大 数据 架构 商业 之 路 》 一 书 的 第 4 章 。 


1.Hadoop 集 群 的 安装 和 设置 




















在 Mahout 使 用 Hadoop 之 前 ， 需 要 一 步 步 地 搭建 Hadoop 集 群 。 用 于 本 案例 的 硬件 环境 为 三 台 苹 果 个 人 电脑 ， 除 了 之 前 的 iMac2015， 还 有 两 台 MacBook Pro， 代 号 分 别 为 Mac-BookPro2012 和 
MacBookPro2013， 其 大 体 配 置 分 别 如 图 1-21 和 图 1-22 所 示 。 局 域 网 也 是 需要 的 ， 三 台 机 器 分 配 的 IP 分 别 如 下 。 








iMac2015 192.168.1.48 
MacBookPro2013 192.168.1.28 


MacBookPro2012 192.168.1.78 


-i 


和 
A | rr A 
Hardware Overview: 


Model Name: MacBook Pro 


Model Identifier: 
Processor Name: 


Processor Speed: 
Number of Processors: 
Total Number of Cores: 
L2 Cache (per Core)}: 
L3 Cache: 





MacBookPro9,2 
Intel Core i5 
2.5 GHz 

1 

2 

256 KB 

3 MB 

16 GB 








图 1-21 MacBookPro2012 的 配置 








ardware Overview: 


Model Name: MacBook Pro 
Model Identifier: MacBookPro11,5 
Processor Name: Intel Core i7 


Processor Speed: 2.5 GHz 
Number of Processors: 1 

Total Number of Cores: 4 

L2 Cache (per Core): 256 KB 
L3 Cache: 6 MB 
Memory: 16 GB 








图 1-22 ” MacBookPro2013 的 配置 

















至 于 软件 ， 由 于 所 有 的 操作 系统 都 是 Mac OS， 因 此 下 面 示例 中 的 命令 和 路 径 都 以 Mac OS 为 准 ， 请 根据 自己 的 需要 进行 适当 调整 。 


首先 在 三 台 机 器 之 间 构 建 SSH 的 互信 连接 ， 在 iMac2015 上 生成 本 台 机 器 的 公 钥 : 


[huangsean@iMac2015:/Users/huangsean/Coding] ssh-keygen -t rsa 

Generating public/private rsa key pair. 

Enter fi le in which to save the key (/Users/huangsean/.ssh/id rsa): 

Enter passphrase (empty for no passphrase): 

Enter same passphrase again: 

Your identification has been saved in /Users/huangsean/.ssh/id rsa. 

Your public key has been saved in /Users/huangsean/.ssh/id rsa.pub. 
[huangsean@iMac2015:/Users/huangsean/Coding]more /Users/huangsean/.ssh/id rsa.pub 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/,.. 





然后 将 公 钥 发 布 到 另外 两 台 机 器 MacBookPro2012 和 MacBookPro2013 上 ， 此 时 还 需要 手动 登录 : 


[huangsean@iMac2015: /Users/huangsean/Coding]scp ~/.ssh/id rsa.pub huangsean@MacBookPro2012:~/master key 
[huangsean@iMac2015: /Users/huangsean/Coding]scp ~/.ssh/id rsa.pub huangsean@MacBookPro2013:~/master key 





如 果 MacBookPro2012 和 MacBookPro2013 上 还 没有 ~/.ssh 目 录 ， 那 么 先 创建 该 目录 并 设置 合适 的 权限 。 而 后 ， 将 iMac2015 的 公 钥 移 动 过 去 并 命名 为 “authorized_keys”， 下面 以 
MacBookPro2012 为 例 : 





[huangsean@MacBookPro2012:/Users/huangsean/Coding]mkdir ~/.ssh 

[huangsean@ MacBookPro2012:/Users/huangsean/Coding]chmod 700 ~/.ssh 
[huangsean@ MacBookPro2012:/Users/huangsean/Coding]mv ~/master key ~/.ssh/authorized keys 
[ 


huangsean@ MacBookPro2012:/Users/huangsean/Coding] chmod 600 ~/.ssh/authorized keys 





如 果 MacBookPro2012 和 MacBookPro2013 已 有 ~/.ssh 目 录 ， 那 么 将 iMac2015 的 公 钥 移动 过 去 并 命名 为 “authorized_keys”。 如 果 之 前 “authorized_keys” 文 件 已 经 存在 ， 那 么 将 iMac2015 的 公 
钥 移 动 附 加 在 其 后 面 。 同 样 以 MacBookPro2012 为 例 : 








[huangsean@ MacBookPro2012:/Users/huangsean/Coding]cat ~/master key >> ~/.ssh/authorized keys 





这 样 ，iMac2015 就 可 以 免 密码 SSH 登 录 MacBookPro2012 和 MacBookPro2013 了 。 然 后 如 法 炮制 ， 让 三 台 机 器 可 以 相互 免 密码 登录 。 

















下 面 ， 让 我 们 进入 Hadoop 分 布 式 环境 搭建 的 正题 。 通 过 如 下 链接 下 载 并 解压 Hadoop 发 行 版 ， 本 文 使 用 的 版 本 是 2.7.3: 


http://hadoop.apache.org/releases.html 


























解压 后 ， 部 署 分 布 式 Hadoop 2.x 版 的 主要 步骤 具体 如 下 。 


i 


为 Hadoop 设 置 正确 的 环境 变量 。 


2) 编辑 一 些 重要 的 配置 文件 包括 core-site.xml、hdfs-site.xml 等 。 





3) 一 个 容易 被 遗忘 但 是 很 关键 的 步骤 : 格式 化 名 称 节点 。 


4) 运行 start-dfs.sh 来 启动 HDFS。 








w 


运行 start-yarn.sh 来 启动 MapReduce 的 作业 调度 。 
下 面 分 别 来 看 看 这 些 步骤 。 
首先 ， 设 置 环境 变量 : 


export HADOOP HOME=/Users/huangsean/Coding/hadoop-2.7.3 
export PATH=$BATH:$HADOOP HOME/bin 

export PATH=$PATH:$HADOOP HOME/sbin 

export HADOOP MAPRED HOME=$HADOOP HOME 

export HADOOP COMMON HOME=$HADOOP HOME 

export HADOOP HDFS HOME=$HADOOP HOME 

export HADOOP YARN HOME=$HADOOP HOME 

export YARN HOME=$HADOOP HOME 

export HADOOP COMMON LIB NATIVE DIR=$HADOOP HOME/lib/native 
export HADOOP OPTS="-Djava.library.path=$HADOOP HOME/1ib" 























进入 Hadoop 主 目录 中 的 /etc/hadoop/， 分 别 修改 core-site.xml、hdfs-site.xml、mapred-site.xml、 


配置 文件 core-site.xml 的 示例 如 下 : 


yarn-site.xml、slaves 和 hadoop-env.sh。 





<configuration> 


<property> 
<name>hadoop. tmp.dir</name> 
<value>file:/Users/huangsean/Coding/hadoop-2.7.3/tmp</value> 
<description>Abase for other temporary directories.</description> 

</property> 

<property> 
<name>fs.defaultFS</name> 
<value>hdfs://iMac2015:9000</value> 

</property> 


</configuration> 
































统 也 都 需要 使 用 这 个 设置 。 














配置 文件 hdfs-site.xml 的 示例 如 下 : 


其 中 ，hadoop.tmp.dir 指 定 了 HDFS 数 据 存放 的 目录 。 而 fs.defaultFS 指 定 了 命名 节点 (Name Node) 的 IP 或 名 称 (iMac2015) ， 以 及 端口 (9000) ， 这 点 是 非常 

















要 的 ， 稍 后 依赖 HDFS 的 





他 系 





<configuration> 
<property> 
<name>dfs.replication</name> 
<value>2</value> 
</property> 
<property> 
<name>dfs.namenode .name .dir</name> 
<value>file:/Users/huangsean/Coding/hadoop-2.7.3/tmp/dfs/name</value> 
</property> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>file:/Users/huangsean/Coding/hadoop-2.7.3/tmp/dfs/data</value> 
</property> 
<property> 
<name>dfs.blocksize</name> 
<value>124800000</value> 
</property> 
</configuration> 


这 里 将 副本 数量 replication 设 置 为 2， 并 设置 命名 节点 (NameNode) 和 数据 节点 (DataNode) 的 
要 较 大 的 文件 块 。 太 多 的 小 文件 将 影响 Hadoop 的 性 能 。 


配置 文件 mapred-site.xml 的 示例 如 下 : 




















录 来 保存 文件 。 另 一 个 关键 参数 是 块 大 小 (blocksize) 。 由 于 HDFS 擅 长 批 处 理 ， 所 以 通常 它 


| 





<configuration> 


<property> 
<name>mapreduce. framework.name</name> 
<value>yarn</value> 

</property> 


<property> 
<name>mapreduce.jobhistory.address</name> 
<value>iMac2015:10020</value> 

</property> 


<property> 
<name>mapreduce.jobhistory .webapp.address</name> 
<value>iMac2015:19888</value> 
































</property> 
</configuration> 
从 中 你 可 以 看 到 有 关 任务 的 设置 ， 主 要 是 用 于 跟踪 MapReduce 的 计算 任务 。 











配置 文件 yarn-site.xm| 的 示例 如 下 : 


<configuration> 
<!-- Site specific YARN configuration properties --> 
<property> 


<name>mapreduce. framework.name</name> 
<value>yarn</value> 
</property> 


<property> 
<name>yarn.resourcemanager.scheduler .address</name> 
<value>iMac2015:8030</value> 

</property> 


<property> 
<name>yarn.resourcemanager .resource-tracker.address</name> 
<value>iMac2015:8031</value> 

</property> 


<property> 
<name>yarn.resourcemanager.address</name> 
<value>iMac2015:8032</value> 

</property> 


<property> 
<name>yarn.resourcemanager .admin.address</name> 
<value>iMac2015:8033</value> 

</property> 


<property> 
<name>yarn.resourcemanager .webapp.address</name> 
<value>iMac2015:8088</value> 

</property> 


<property> 
<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce_ shuffle</value> 
</property> 


<property> 
<name>yarn.nodemanager.aux-service.mapreduce.shuffle.class</name> 
<value>org.apache.hadoop.mapred.ShuffleHandler</value> 
</property> 


</configuration> 














其 中 端口 的 默认 配置 通常 都 是 可 以 正常 工作 的 ， 请 注意 将 主机 IP 地 址 或 名 称 进行 合理 的 替换 。 














配置 文件 slaves 的 示例 如 下 : 





iMac2015 
MacBookPro2013 
MacBookPro2012 




















由 于 硬件 资源 非常 有 限 ， 因 此 这 里 使 用 了 全 部 的 三 台 机 器 作为 slave。 最 后 在 hadoop-env.sh 文 件 中 ， 记 得 设置 Java JDK 的 路 径 : 








export JAVA HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0 112.jdk/Contents/Home 





对 于 上 述 所 有 的 配置 文件 ， 你 可 以 通过 下 面 的 链接 获取 更 多 的 参考 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/UserBehaviorTracking/SelfDesign/hadoop/conf 





在 三 台 机 器 上 完成 上 述 配置 后 ， 在 主 节点 iMac2015 上 通过 如 下 命令 格式 化 HDFS: 





[huangsean@iMac2015:/Users/huangsean/Coding]hdfs namenode -format 





然后 在 主 节点 上 通过 Hadoop sbin 目 录 中 的 如 下 命令 ,分 别 启动 Hadoop 集 群 的 HDFS 和 YARN 管 理 : 





[huangsean@iMac2015:/Users/huangsean/Coding] start-dfs.sh 
[huangsean@iMac2015:/Users/huangsean/Coding] start-yarn.sh 





如 果 要 关闭 集群 ， 那 就 使 用 Hadoop sbin 目 录 中 的 如 下 命令 : 





[huangsean@iMac2015:/Users/huangsean/Coding] stop-all.sh 





集群 成 功 启动 之 后 ， 我 们 可 以 通过 如 下 的 链接 来 查看 HDFS 的 整体 状况 : 


http://imac2015: 50070/dfshealth.html 





网 








1-23 展 示 了 HDFS 的 概括 ， 单 击 页 面 上 的 “Live Nodes” 链 接 ， 可 以 进一步 看 到 类 似 于 图 1-24 的 数据 节点 信息 。 
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OverVvieW 'iMac2015:9000' (active) 


Fri Dec 02 21:52:20 PST 2016 

2.7.3, rbaa91f7c6bc9cb92be5982de4719c1c8af91ccff 
2016-08-18T01:41Z by root from branch-2.7.3 
CID-78d4359b-2c5b-486f-b95e-738262b9ca32 


BP-1851561350-192.168.1.48-1480739269177 


Summary 


Security is off, 
Safemode is off. 


1 files and directories, 0 blocks = 1 total filesystem object(s). 
Heap Memory used 61.94 MB of 168 MB Heap Memory. Max Heap Memory is 889 MB. 
Non Heap Memory used 38.06 MB of 39.31 MB Commited Non Heap Memory. Max Non Heap Memory is -1 B. 


Configured Capacity: 1.13TB 

DFS Used: 36 KB (0%) 

Non DFS Used: 675.5 GB 

DFS Remaining: 485.85 GB (41.83%) 
Block Pool Used: 36 KB (0%) 
DataNodes usages% (Min/Median/Max/stdDev): 0.00% /0.00% /0.00% / 0.00% 
Live Nodes 3 (Decommissioned: 0) 
Dead Nodes 0 (Decommissioned: 0) 
Decommissioning Nodes 

Total Datanode Volume Failures 

Number of Under-Replicated Blocks 

Number of Blocks Pending Deletion 


Block Deletion Start Time 12/2/2016, 9.5220 PM 














图 1-23 HDFS 启 动 后 的 系统 概览 ， 包 括 多 少 存 活 节 点 




















在 图 1-23 的 界面 上 点 击 “Utilities” 选 项 卡 的 “Browse the file system” 选 项 ， 你 还 可 以 看 到 目前 刚刚 启动 的 HDFS 中 尚 无 数据 ， 如 图 1-25 所 示 。 
































而 通过 如 下 链接 ， 你 可 以 查看 MapReduce 的 任务 执行 情况 : 


http:Wimac2015: 8088/cluster 








到 1-26 展 示 了 目前 集群 中 任务 分 配 和 执行 的 情况 。 








Datanodes Datanode Volume Failures Snapshot Startup Progress Utilities 


Datanode Information 


In operation 


Node Block pool used 
MacBookPro2013:50010 (192.168.1.28:50010) 12 KB (0%) 
MacBookPro2012-50010 (192.168.1.78:50010) 12 KB (0%) 


iMac2015:50010 (192.168.1.48:50010) 12 KB (0%) 


Decomissioning 





图 1-24 ”三 人 台 机 器 都 成 为 数据 节点 ， 其 磁盘 使 用 情况 也 被 显示 了 出 来 

















图 1-25 HDFS 中 尚 无 数据 


All Applications 

















图 1-26” 尚 无 任务 分 配 和 执行 








2.Hadoop 所 支持 的 训练 过 程 





Hadoop 集 群 部 署 完 毕 之 后 ， 我 们 就 可 以 将 Mahout 所 要 使 用 的 数据 导入 HDFS 了 。 首 先是 创建 相应 的 目录 : 








[huangsean@iMac2015:/Users/huangsean/Coding]hadoop fs -mkdir -p /data/BigData 
ArchitectureAndAlgorithm 





如 图 1-27 所 示 ， 新 目录 在 HDFs 中 创建 成 功 。 
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Browse Directory 


Size Last Modified Name 


0B 1/18/2017, 10:35:24 PM BigDataArchitectureAndAlgorithm 











网 


1-27 创建 新 目录 ， 用 于 存放 分 类 实验 的 数据 








然后 将 实验 数据 复制 到 HDFS 的 新 目录 中 : 





[huangsean@iMac2015:/Users/huangsean/Coding]hadoop fs -put -p /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-mahout /data/BigDataArchit 


























其 过 程 较 慢 ， 主 要 原因 是 一 共有 超过 28000 个 商品 文件 ， 而 且 每 个 文件 的 内 容 都 只 是 商品 的 标题 。 这 可 能 证 明了 HDFS 不 太 善 于 处 理 大 量 小 文件 。 最 终 的 结果 类 似 于 图 1-28 的 截屏 。 























Mahout 的 部 署 和 设置 也 要 做 稍 许 修改 。 由 于 Hadoop 是 2.7.3 的 版 本 ， 所 以 需要 将 Mahout 的 版 本 切换 到 和 该 Hadoop 兼 容 的 0.12.2， 并 设置 相应 的 环境 变量 。 需 要 注意 的 是 ， 为 了 确保 Mahout 是 在 
Hadoop 上 进行 并 行 处 理 的 ， 此 处 不 能 再 设置 MAHOUT_LOCAL 的 变量 : 





export MAHOUT HOME=/Users/huangsean/Coding/apache-mahout-distribution-0.12.2 
export PATH=$PATH: $MAHOUT HOME/bin 














之 后 的 步骤 和 单机 版 的 相似 ， 不 过 要 使 用 HDFS 中 的 路 径 。 首 先是 获取 序列 文件 : 











[huangsean@iMac2015:/Users/huangsean/Coding]mahout seqdirectory -i /data/BigData 
ArchitectureAndAlgorithm/listing-segmented-shuffled-mahout/ -o /data/BigDataArchitecture 
AndAlgorithm/listing-segmented-shuffled-seq -ow 
Running on hadoop, using /Users/huangsean/Coding/hadoop-2.7.3/bin/hadoop and HAD 
OOP CONF DIR= 
MAHOUT-JOB: /Users/huangsean/Coding/apache-mahout-distribution-0.12.2/mahout— 
examples-0.12.2-job.jar 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 
17/01/18 23:11:24 INFO MahoutDriver: Program took 177910 ms (Minutes: 2.965 
1666666666667) 





Hadoop Overview a jes Startup Pro 
Browse Directory 


Permission Owner Group Size Last Modified 
drwxr-XT-X huangsean 0B 1/17/2017, 126;56 PM 
drwxr-XT-X huangsean 
drwxr-XT-X huangsean 


drwxr-xr-X 


0B 1/17/2017, 126:56 PM 
0B 1/17/2017, 1:26:56 PM 
0B 1/17/2017, 126;56 PM 
drwxT-XT-X 0B 1/17/2017, 1:26:56 PM 
drwxr-XT-X 0B 1/17/2017, 126;56 PM 
drwxT-XT-X 0B 1H7/2017, 1:26:56 PM 
drwxr-Xr-X 0B 1/17/2017, 126;56 PM 
drwxT-XT-X 0B 1/17/2017, 1:26:56 PM 
rwxr-x1-x 0B 1/17/2017, 126;56 PM 
drwxr-XT-X 0B 1/7/2017, 1:26:56 PM 
drwxr-Xr-X 0B 1/17/2017, 126;56 PM 
drwxT-XT-X 0B 1/17/2017, 1:26:56 PM 
drwxr-Xr-X 0B 1/17/2017, 126;56 PM 
drwxr-XT-X 0B 1/17/2017, 126:56 PM 
drwxr-XT-X 0B 1/17/2017, 1:26;56 PM 


drwxT-XT-X 0B 1/17/2017, 1:26:56 PM 


Staff 
staff 
Sstaff 
Staff 
staff 
Staff 
staff 
Staff 
staff 
Sstaff 
staff 
staff 
staff 
staff 
staff 
staff 
Staff 
staff 


drwxr-XF-X 0B 1/17/2017, 126;56 PM 


Hadoop, 2016. 











1-28 导入 后 的 数据 文件 











妇 


已 














图 1-29 所 示 ， 序 列 文件 的 结果 被 存储 于 HDFS 之 中 。 而 从 图 1-30 中 以 看 出 ，Mahout 刚 刚 在 Hadoop 上 启动 了 MapReduce 的 任务 。 


将 序列 文件 转 为 向 量 文件 : 





[huangsean@iMac2015:/Users/huangsean/Coding]mahout seq2sparse -i /data/BigData 
ArchitectureAndAlgorithm/listing-segmented-shuffled-seq/part-m-00000 -o /data/Big 
DataArchitectureAndAlgorithm/listing-segmented-shuffled-vec -lnorm -nv -wt tf -a 
org.apache.lucene.analysis.core.WhitespaceAnalyzer 
Running on hadoop, using /Users/huangsean/Coding/hadoop-2.7.3/bin/hadoop and 
HADOOP CONF_DIR= 
MAHOUT-JOB: /Users/huangsean/Coding/apache-mahout-distribution-0.12.2/mahout— 
examples-0.12.2-job.jar 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
17/01/18 23:38:19 INFO MahoutDriver: Program took 1181880 ms (Minutes: 19.698) 
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Browse Directory 


/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-seq 
Permission Owner Group Size Last Modified Block Size Name 
-fwW-r 一 ~- huangsean 0B 1/18/2017, 11:11:22 PM 119.02 MB _SUCCESS 


2.9MB 1/18/2017, 11:11:17 PM 119.02 MB part-m-00000 





图 1-29 HDFS 中 的 序列 文件 


All Applications 





Smee Statle 5 FinalStatus 0 Progress © Tracking Ul 


Wed Jan WedJan18 FINISHED SUCCEEDED Di tsoy 
18 23:1122 

23209:10 -0800 2017 

-0800 

2017 





图 1-30 ”Hadoop 目 前 执行 的 MapReduce 任 务 


切 分 训练 样本 和 测试 样本 集合 ， 训 练 集 仍 占 全 体 数据 的 90%， 剩 下 的 10% 作 为 待 测 集 : 





[huangsean@iMac2015:/Users/huangsean/Coding]mahout split -i /data/BigDataArchitecture 
AndAlgorithm/listing-segmented-shuffled-vec/tf-vectors --trainingOutput /data/Big 
DataArchitectureAndAlgorithm/listing-segmented-shuffled-train --testOutput /data/Big 
DataArchitectureAndAlgorithm/listing-segmented-shuffled-test --randomSelectionPct 10 --overwrite --sequenceFiles -xm sequential 
Running on hadoop, using /Users/huangsean/Coding/hadoop-2.7.3/bin/hadoop and 
HADOOP_ CONF_DIR= 
MAHOUT-JOB: /Users/huangsean/Coding/apache-mahout-distribution-0.12.2/mahout— 
examples-0.12.2-job.jar 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
17/01/18 23:43:19 INFO MahoutDriver: Program took 1259 ms (Minutes: 0.0209833333 
33333333) 





并 行 地 训练 朴素 贝 叶 斯 模型 : 





[huangsean@iMac2015:/Users/huangsean/Coding]mahout trainnb -i /data/BigData 
ArchitectureAndAlgorithm/listing-segmented-shuffled-train -o /data/BigDataArchitecture 
AndAlgorithm/listing-segmented-shuffled-model -11 /data/BigDataArchitectureAnd 
Algorithm/listing-segmented-shuffled-mahout-labelindex -ow 
Running on hadoop, using /Users/huangsean/Coding/hadoop-2.7.3/bin/hadoop and 
HADOOP CONF_DIR= 
MAHOUT-JOB: /Users/huangsean/Coding/apache-mahout-distribution-0.12.2/mahout— 
examples-0.12.2-job.jar 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
17/01/18 23:55:31 INFO MahoutDriver: Program took 371944 ms (Minutes: 6.19906666 
6666667) 





测试 训练 后 的 贝 叶 斯 模型 : 





[huangsean@iMac2015:/Users/huangsean/Coding]mahout testnb -i /data/BigData 
ArchitectureAndAlgorithm/listing-segmented-shuffled-test -m /data/BigDataArchitecture 
AndAlgorithm/listing-segmented-shuffled-model -1 /data/BigDataArchitectureAndAlgorithm/ 
listing-segmented-shuffled-mahout-labelindex -ow -o /data/BigDataArchitecture 
AndAlgorithm/listing-segmented-shuffled-mahout-results 

Running on hadoop, using /Users/huangsean/Coding/hadoop-2.7.3/bin/hadoop and 

HADOOP CONF DIR= 

MAHOUT-JOB: /Users/huangsean/Coding/apache-mahout-distribution-0.12.2/mahout— 
examples-0.12.2-job.jar 
http://www.hzcourse.com/resource/readBook? 














Kappa 0.9581 
Accuracy 97.6308% 
Reliability 89.9985% 
Reliability (standard deviation) 0a2538 
Weighted precision D9778 
Weighted recall 0.9763 
Weighted F1 score 0.9757 


17/01/18 23:59:14 INFO MahoutDriver: Program took 153815 ms (Minutes: 2.56358333 
33333333) 




















如 图 1-31 所 示 ， 我 们 可 以 在 HDFS 上 找到 整个 过 程 所 产生 的 各 种 数据 。 不 过 ， 你 可 能 发 现 并 非 分 布 式 计算 就 一 定好 。 相 对 于 之 前 的 单机 实验 ， 多 机 的 耗 时 明显 更 长 了 。 其 原因 可 能 包括 如 下 两 点 。 


Browse Directory 


/data/BigDataArchitectureAndAlgorithm 
Permission Owner Last Modified Block Size Name 
drwxr-Xr-X 1/18/2017, 10:43206 PM 08B listing-segmented-shuffled-mahout 
TW- 1/18/2017, 11:49:20 PM 119.02 MB listing-segmented-shuffled-mahout-labelindex 
drwxr-xr-X 1/18/2017, 11:59:12 PM 0B listing-segmented-shuffled-mahout-results 
drwxr-xr-X 1/18/2017, 11:55:31 PM 0B listing-segmented-shuffiled-model 
drwxr-Xr-X 1/18/2017, 11:11:22 PM 0B listing-segmented-shuffled-seq 
drwxr-XT-X 1/18/2017, 11:43:19 PM 0B lsting-segmented-shuffled-test 
drwxr-XT-X 1/18/2017, 11:43:19 PM 0B listing-segmented-shuffled-train 


drwxr-Xr-X 1/18/2017, 11:38:19 PM 0B listing-segmented-shuffled-vec 


Hadoop, 2016. 





图 1-31 任务 结束 后 ， 可 以 在 HDFS 中 查看 各 种 数据 














第 一 ， 测 试 数据 规模 太 小 ， 远 远 没有 到 达 单 机 性 能 的 瓶颈 ， 分 布 式 的 协同 和 网 络 通信 反而 占用 了 更 多 的 开销 。 





第 二 ， 小 文件 过 多 ， 这 并 非 MapReduce 计 算 模式 的 长 处 。 





所 以 ， 在 实际 生产 中 ， 我 们 需要 结合 实际 情况 ， 进 行 具体 分 析 ， 再 定 下 最 合适 的 技术 方案 。 


[上 Maven 是 一 种 软件 项 目 管理 工具 ， 其 项 目 对 象 模型 (POM) 可 以 通过 一 小 段 描述 信息 来 管理 项 目的 构建 。 


1.7 ”更 多 的 思考 

















上 面 几 节 中 讲述 了 分 类 这 种 机 器 学 习 方法 的 基本 知识 ， 及 其 系统 实现 。 不 过 在 实际 运用 中 ， 我 们 还 需要 注意 以 下 几 点 。 

:合理 对 待 分 类 的 准确 性 。 我 们 可 以 看 到 ， 无 论 是 何 种 算法 的 预测 ， 通 常 都 不 可 能 拥有 100% 的 准确 性 。 在 实际 运用 中 ， 可 以 结合 具体 情况 灵活 运用 。 例 如 ， 本 章 提 到 的 业务 需求 : 如 何 将 商品 放 入 适合 
的 分 类 中 。 我 们 可 以 将 其 看 作 是 一 个 多 分 类 问题 ， 根 据 分 类 的 预测 值 ， 提 供 超过 1 个 的 分 类 候选 。 像 之 前 提 到 的 进口 牛奶 和 非 进口 纯 牛 奶 的 例子 ， 虽 然 机 器 无 法 完全 准确 地 判定 其 属于 两 者 中 的 哪 一 种 ， 但 如 
果 同 时 提供 了 两 者 给 商家 选择 ， 那 么 用 户 体验 还 是 相当 不 错 的 。 





“ 标注 数据 的 质量 。 现 实 中 ， 由 于 数据 里 难免 存在 一 些 干扰 因素 ， 通 常 需要 假设 现 有 的 商品 分 类 信息 (也 就 是 标注 的 训练 样本 ) 绝 大 部 分 都 是 正确 的 。 有 了 这 个 假设 ， 设 计 者 就 可 以 忽略 基于 内 容 特 征 
来 分 类 的 结果 误差 。 如 果 观 察 发 现 数据 质量 达 不 到 要 求 ， 无 法 满足 这 个 假设 ， 那 么 就 不 能 使 用 这 种 自动 分 类 的 学 习 模 型 。 





“ 训练 样本 的 数量 。 一 般 商 品 的 类 目 都 是 分 为 多 个 层级 的 ， 如 图 1-32 所 示 ， 一 级 类 目 是 “食品 、 饮 料 、 酒 水 ”， 二 级 类 目 是 “糖果 巧克力 ”， 三 级 类 目 是 “ 润 喉 糖 ”。 越 是 细 分 的 类 目 ， 其 所 包含 的 商 
品 数量 可 能 就 会 越 少 。 这 也 许 会 导致 训练 样本 不 够 ， 分 类 精度 很 差 的 情况 。 这 种 情形 下 ， 不 建议 对 于 过 小 的 分 类 进行 训练 和 预测 。 可 以 考虑 对 上 级 类 目 进行 处 理 。 











“ 其 他 可 用 的 表示 法 和 特征 。 如 果 只 采用 文本 本 身 的 词 包 (Bag of Word) 表示 ， 有 的 时 候 无 法 获取 非常 高 的 精准 度 。 举 个 例子 ， 在 1.6.5 节 所 创建 的 实时 性 预测 程序 中 ， 你 输入 “牛奶 巧克力 ”和 “ 巧 克 
力 牛 奶 ”， 系 统 给 出 的 分 类 都 是 “巧克力 ”， 如 图 1-33 所 示 ， 这 明显 是 不 准确 的 。 也 许 你 会 考虑 到 更 复杂 的 表示 方法 ， 例 如 n 元 文法 (n-gram) 或 词组 ， 来 描述 单词 出 现 的 先后 顺序 。 除 此 以 外 ， 不 仅仅 是 商 
品 本 身 的 标题 和 详细 描述 ， 还 有 一 些 其 他 的 数据 可 以 帮助 机 器 进行 分 类 ， 例 如 用 户 进行 关键 词 搜索 的 时 候 ， 其 行为 也 提供 了 非常 有 价值 的 信息 。 我 们 将 在 第 6 章 讲解 有 关 搜索 相关 性 优化 的 部 分 继续 探讨 这 个 
有 趣 的 话题 。 














疹 生 鲜 食品 、 冷 藏 冷冻 


环球 购 、 进 口 食 品 
美 妆 洗 护 、 个 人 护理 
家 清 纸 品 、 厨 具 餐 具 
家 纺 、 家 居 、 家 装 
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路 购物 卡 、 票 券 
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高 类 小 食 “海味 小 食 。 米 果 锅巴 
爆 米花 “是 条 / 虾 片 ”其 他 膨化 食品 
豆 干 /素食 小食 脱水 蔬果 干 


坚果 炒货 
核 术 ”杏仁 用 果 瓜子 


巧克力 “布丁 人 锡 芍 青 看 糙 
软 猪 ” 妃 糖 ” 润 肉 
果 永 ” 碎 冰 水 口 

棒 棒 畦 ”玩具 料 


饼干 粕 点 

饼干 “零食 饼干 ”上 曲 奇 《 威 化 
凤梨 酥 ”肉松 饼 ”面包 /面包 干 
蛋黄 派 / 巧 克 力 派 。 沙 琪 玛 
其 他 妖 点 ”下 粒 ”下 郑 


果 请 密 钱 
话 梅 “ 鸡 葡 干 ” 山 核 制品 “ 罕 钱 
杰 类 


港 矢 饮料 碳酸 饮料 
功能 饮 和 对 


期 啡 / 茶 

茶叶 礼 售 ”茶叶 绿茶 龙井 茶 
儿 螺 春 乌龙茶 普洱 茶 铁 观 音 
纹 泡 茶花 草 茶 “速溶 熙 徐 


妖 塞 / 疾 制 品 “豆奶 / 豆 桨 粉 

可 可 /巧克力 粉 

妖 窗 柚子 茶 / 果 昧 茶 ”奶茶 藉 粉 
芝麻 中 ”核桃 戎 ”天然 粉 

疾 类 礼盒” 其 他 冲 油 饮品 


营养 保健 
燕窝 滋补， 参 类 维生素 
蛋白 质 粉 ”无 苦 / 低 粮食 品 


图 1-32 多 级 类 目 结构 示意 


Problems @ Javadoc 也 Declaration 多 Search 


粮油 干货 

食用 油 米 杂 狠 地 菌 自 类 
南北 干货 粉丝 /粉条 稻 干 水 产品 
面粉 


厨房 调味 

盐 短 醋 读 油 | 味精 /鸡精 
调味 料 ”调味 汁 ”调味 丫 调味 油 
火锅 料 。 果 获 ” 酒 酸 
巧克力 蕊 /花生 蕊 


方便 速 食 

方便 面 ” 火 乌 肠 ” 面 制品 “ 速 食 汤 
/ 饭 “ 速 食 粉丝 /米线 腐乳 
泡菜 “ 八 宝 弦 “ 蛋 制 品 
品 【常温 热 食 
芭 食 食品 


牛奶 /乳品 
纯 牛奶 风味 奶 ”儿童 奶 
豆奶 / 豆 将 酸奶 含 乳 饮料 





NBClassifierOnline [Java Application] /Library/Java/JavaVirtual Machines/jdk1.8.0_92.jdk/Contents/Home/bin/ 
SLF4J]: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 

SLF4J]: Defaulting to no-operation (NOP) logger implementation 

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details. 


请 输入 待 测 的 文本 : 牛奶 巧克力 
预测 的 分 类 为 : 巧克力 
请 输入 待 测 的 文本 : 巧克力 牛奶 


预测 的 分 类 为 ; 巧克力 


请 输入 待 测 的 文本 : 








1-33 基于 词 包 的 分 类 无 法 精准 地 判断 语义 











第 2 章 方案 设计 和 技术 选 型 : 聚 类 





学 习 了 这 么 多 关于 分 类 的 知识 后 ， 让 我 们 再 回 到 小 丽 提 出 的 第 二 大 需求 : 帮助 商家 进行 合理 的 搜索 关键 词 优化 。 对 于 电 商 平台 的 商家 而 言 ， 站 内 搜索 的 流量 和 转化 率 是 至 关 重要 的 。 而 要 想 被 搜索 引擎 
搜索 到 ， 最 基本 的 条 件 是 使 用 了 足够 并 且 合 理 的 关键 词 来 描述 商品 。 因 此 ， 帮 助 他 们 在 商品 文 描 中 优化 和 补充 适当 的 关键 词 ， 将 会 提升 商品 被 用 户 搜索 到 的 可 能 性 ， 也 能 增加 商家 运营 的 效率 。 对 此 ， 小 明 
是 这 么 理解 的 : “可 以 充分 利用 大 家 的 智慧 ， 来 帮助 商家 进行 关键 词 SEO。 对 于 某 个 新 刊登 的 商品 A， 根 据 其 现 有 的 关键 词 ， 查 找 和 其 最 相似 的 其 他 商品 ， 并 将 这 些 相似 品 放 入 集合 B 中 。 然 后 在 集合 B 中 ， 
统计 热门 的 关键 词 ， 为 A 发 现 它 可 能 漏 掉 的 用 词 。” 











“可 是 ， 我 们 怎样 为 某 个 商品 查找 所 有 的 相似 品 呢 ? 之 前 阐述 监督 学 习 的 时 候 ， 你 提 到 的 KNN 算 法 好 像 可 以 完成 这 个 任务 。” 











“ 没 错 。 但 是 KNN 算 法 最 大 的 问题 是 需要 人 工 标注 的 数据 。 这 里 将 学 习 另 一 种 非 监督 式 的 机 器 学 习 方法 一 一 聚 类 ， 以 及 聚 类 中 的 经 典 算法 K 均 值 (K-Means) 。 该 算法 的 原理 和 KNN 在 一 定 程度 上 比较 
类 似 ， 不 过 其 应 用 场景 有 所 不 同 。” 























2.1 聚 类 的 基本 概念 


如 前 所 述 ， 监 督 式 学 习 通 过 训练 资料 学 习 建 立 一 个 模型 ， 并 依 此 模型 推测 出 了 新 的 实例 。 实 际 场景 中 ， 我 们 经 常 还 会 遇 到 另 一 种 更 为 原始 的 情况 : 不 存在 任何 关于 样本 的 先 验 知识 ， 让 我 们 在 没 人 指导 
的 情形 下 去 将 很 多 东西 进行 归 类 。 因 此 ， 归 类 系统 必须 通过 一 种 有 效 的 方法 “发 现 ” 样 本 的 内 在 相似 性 ， 然 后 通过 一 种 被 称 为 “ 非 监督 学 习 ” 的 方法 来 设计 该 归 类 系统 。 这 一 节 将 致力 于 阐述 特征 向 量 的 非 
监督 学 习 方式 ， 通 常 称 为 “ 聚 类 ” (Clustering) 。 实 质 上 这 是 一 种 数据 驱动 的 方法 ， 它 试图 发 现 数据 自身 的 内 部 结构 ， 将 数据 对 象 以 群 组 (Cluster) 的 形式 进行 分 组 。 假 想 另外 一 个 场景 ， 还 是 以 1000 颗 
水 果 为 例 ， 这 次 我 们 不 会 事先 告诉 果农 ， 只 可 能 有 苹果 、 甜 档 和 西瓜 三 种 水 果 ， 而 是 让 他 们 按照 水 果 之 间 的 相似 程度 ， 进 行 归 组 ， 更 相似 的 放 入 一 组 。 这 就 是 最 基本 的 聚 类 问题 。 和 分 类 问题 相同 的 地 方 在 
于 ， 果 农 可 能 会 将 甜 楼 和 苹果 弄 混淆 。 不 同 之 处 在 于 ， 在 没有 修改 游戏 规则 之 前 ， 分 类 问题 下 永远 只 有 3 个 分 类 ， 而 聚 类 这 种 方式 可 能 会 导致 聚 出 多 于 或 少 于 3 个 的 分 组 。 







































































根据 数据 的 类 型 、 样 本 在 聚 类 中 的 积聚 规则 ， 以 及 应 用 这 些 规则 所 用 的 方法 来 看 ， 有 很 多 种 聚 类 算法 。 大 体 上 可 以 分 为 如 下 两 大 类 。 





“ 质心 调整 型 (Centroid Adjustment) : 这 种 算法 使 用 一 种 迭代 的 方法 来 调整 聚 类 的 典型 模式 点 ， 也 称 聚 类 的 质心 ， 从 而 形成 一 系列 可 以 分 配给 它们 的 样本 。 





“ 层次 型 (Hierarchical) : 层次 型 的 算法 也 可 以 称 为 树 状 聚 类 ， 它 采用 数据 对 象 的 连接 规则 ， 去 制造 一 个 层次 化 序列 的 聚 类 模型 。 这 和 质心 调整 型 所 给 出 的 扁平 化 解决 方案 有 所 不 同 。 












































通常 情况 下 ， 由 于 缺乏 人 为 的 标注 ， 聚 类 的 效果 会 比分 类 的 效果 要 差 一 些 ， 不 过 聚 类 也 有 其 独特 的 优势 : 更 加 节省 人 力 ， 适 合用 于 对 精度 要 求 不 高 ， 或 是 一 些 需要 预 处 理 的 场景 。 例 如 这 里 提 到 的 如 何 
为 给 定 的 商品 找到 其 他 相似 品 。 再 有 ， 在 做 客户 关系 管理 (CRM) 的 时 候 ， 需 要 对 用 户 进行 分 组 并 打上 兴趣 标签 。 大 型 的 网 站 其 用 户 量 有 上 百 万 ， 而 标签 量 也 可 能 上 万 ， 那 么 完全 依赖 分 类 技术 对 于 平台 的 
起 步 而 言 过 于 困难 。 这 时 可 以 考虑 通过 聚 类 来 发 现 相似 的 用 户 ， 并 自动 将 他 们 归 为 一 组 。 然 后 ， 可 对 聚 类 的 初步 结果 进一步 进行 提炼 ， 对 于 重要 的 客户 再 进行 基于 分 类 的 标注 和 处 理 。 










































































2.2 算法: K 均 值 和 层次 型 聚 类 


2.2.1 kK 均 值 涌 类 

















K 均 值 聚 类 (K-Means Clustering) 算法 是 一 种 最 普遍 的 、 通 过 不 断 迭 代 调 整 k 个 聚 类 质心 的 算法 。 这 里 的 质心 是 群 组 的 中 心 点 ， 通 常用 其 中 成 员 的 平均 值 来 计算 。K-Means 是 在 一 个 任意 多 数据 集合 





























的 基础 上 ， 得 到 一 个 事先 定好 群 组 数量 的 聚 类 结果 。 其 中 心思 想 是 : 最 大 化 总 的 群 组 内 相似 度 [1]， 而 群 组 内 相似 度 是 通过 群 组 各 个 成 员 和 群 组 质心 相 比 较 得 到 的 相似 度 来 确定 的 。 想 法 很 简单 ， 但 是 在 样本 
数量 达到 一 定 规模 后 ， 希 望 通过 排列 组 合 所 有 的 群 组 划分 ， 来 找到 最 大 总 群 组 内 的 相似 则 几乎 是 不 可 能 的 。 于 是 人 们 提出 了 如 下 的 近似 解 。 























1) 从 N 个 数据 对 象 中 随机 选取 k 个 对 象 作为 质心 。 因 为 是 第 一 轮 ， 所 以 第 i 个 群 组 的 质心 就 是 选择 的 第 i 个 对 象 ， 而 且 只 有 这 一 个 组 员 。 











2 





对 于 剩余 的 每 个 对 象 ， 测 量 其 和 每 个 质心 的 相似 度 ， 并 把 它 归 到 最 近 的 质心 的 群 组 。 
































3) 重新 计算 已 经 得 到 的 各 个 群 组 的 质心 。 这 里 质心 的 计算 是 关键 ， 如 果 是 用 特制 向 量 来 表示 的 数据 对 象 ， 那 么 最 基本 的 方法 是 取 群 组 内 成 员 的 特制 向 量 ， 将 它们 的 平均 值 作 为 质心 的 向 量 表示 。 





























4) 和 迭代 第 2 步 和 第 3 步 ， 直 至 新 的 质心 与 原 质心 相等 或 相差 之 值 小 于 指定 阔 值 ， 算 法 结束 。 


























如 果 我 们 将 所 有 的 数据 对 象 向 量 映射 到 二 维 空间 ， 图 2-1 的 a、b、< 分 别 展示 了 质心 和 群 组 逐步 调整 的 过 程 。 步 又 3 是 第 一 轮 聚 类 ， 以 及 随后 计算 每 个 群 组 的 质心 。 其 中 的 “+” 表示 质心 ; 步骤 b 是 第 二 
轮 聚 类 ， 根 据 新 的 质心 ， 计 算 每 个 数据 点 应 该 属于 哪个 新 的 群 组 ; 步骤 c， 如 此 往复 ， 进 入 下 一 轮 聚 类 。 




















图 2-1 质心 和 群 组 调整 的 过 程 














细心 的 读者 会 发 现 ， 这 个 过 程 和 KNN 分 类 非常 类 似 ， 都 会 涉及 某 个 数据 对 象 和 其 他 对 象 或 群 组 质心 的 相似 度 计算 。 最 主要 的 区 别 在 于 KNN 是 针对 监督 式 学 习 ， 训 练 数据 中 的 分 类 标签 都 已 经 确定 ， 所 以 
无 需 多 次 迭代 的 优化 过 程 。 而 K 均 值 算法 中 ， 一 开始 质心 和 群 组 的 选择 都 是 临时 的 ， 在 之 后 的 迭代 中 才 逐 步 副 近 局 部 优化 的 解 ， 直 到 达到 一 个 稳定 的 状态 。 












































“小 明 哥 ， 这 个 方法 虽然 简单 易 懂 ， 但 是 一 开始 怎样 选择 这 个 群 组 的 数量 啊 ， 针 对 一 个 新 的 数据 集合 ， 多 少 才 比较 合适 呢 ? 如 果 Kk 值 取得 太 大 ， 那 么 群 组 可 能 切 分 得 太 细 ， 每 个 之 间 的 区 别 不 大 。 如 果 k 
值 取得 太 小 ， 就 怕 粒 度 太 粗 ， 群 组 内 又 差异 明显 。 无 论 怎样 对 最 后 的 分 析 都 不 利 啊 。” 

































































“好 问题 ， 这 种 非 监督 式 的 学 习 确 实 有 一 些 参数 很 难得 到 准确 的 预 估 。 可 以 事先 在 一 个 较 小 的 数据 集合 上 进行 尝试 ， 然 后 根据 结果 和 应 用 场景 确定 一 个 经 验 值 。 当 然 ， 如 果 还 是 不 够 理想 ， 可 以 使 用 层 
次 型 的 聚 类 (Hierarchical Clustering) 在 一 定 程 度 上 缓解 这 个 问题 。” 


2.2.2 层次 型 办 类 

















还 有 一 种 类 型 的 聚 类 方法 ， 仅 仅 使 用 数据 对 象 之 间 的 相似 性 ， 使 得 同一 群 组 中 对 象 的 相似 度 ， 远 远大 于 不 同 群 组 之 间 的 相似 度 。 这 就 是 层次 型 的 聚 类 。 具 体 又 可 分 为 分 裂 和 融合 两 种 方案 。 分 裂 的 层次 
型 聚 类 采用 自 顶 向 下 的 策略 ， 它 首先 是 将 所 有 对 象 置 于 同一 个 群 组 中 ， 然 后 逐渐 细 分 为 越 来 越 小 的 群 组 ， 直 到 每 个 对 象 自 成 一 组 ， 或 者 达到 了 某 个 阔 值 条 件 而 终止 。 融 合 的 层次 聚 类 与 分 裂 的 层次 聚 类 相 
反 ， 是 一 种 自 底 向 上 的 策略 ， 首 先 将 每 个 对 象 作为 一 个 群 组 ， 然 后 将 这 些 原始 群 组 合并 成 为 越 来 越 大 的 群 组 ， 直 到 所 有 的 对 象 都 在 一 个 群 组 中 ， 或 者 达到 某 个 冰 值 条 件 而 终止 。 融 合 的 方式 在 计算 上 更 加 简 
单 快捷 ， 因 此 绝 大 多 数 层次 型 聚 类 方法 属于 这 一 类 ， 只 是 在 群 组 间 相 似 度 的 定义 上 有 所 不 同 而 已 。 其 大 致 流程 概括 如 下 。 




































































1) 最 初 给 定 n 个 数据 对 象 ， 将 每 个 对 象 看 成 一 个 群 组 。 这 样 共 得 到 n 个 组 ， 每 组 仅 包 含 一 个 对 象 ， 组 与 组 之 间 的 相似 度 就 是 它们 所 包含 的 对 象 之 间 的 相似 度 。 
2) 找到 最 接近 的 两 个 组 并 合并 成 一 个 ， 于 是 总 的 组 数 少 了 一 个 。 


3) 


由 


新 计算 新 的 组 与 所 有 | 旧 组 之 间 的 距离 。 




















4) 重复 第 2 步 和 第 3 步 ， 直 


山 
之 








最 后 合并 成 一 个 组 为 止 。 如 果 设 置 了 组 数 ， 或 者 是 组 间 相 似 度 的 阔 值 ， 也 可 以 提前 结束 聚合 。 




















司 2-2 展 示 了 融合 聚 类 的 概念 。 以 左下 角 圆 框 标 出 的 部 分 为 例 ， 可 以 看 到 其 中 的 若干 数据 对 象 的 情况 ， 包 括 14、17、13、22 和 12 号 。 第 一 次 ，14 和 17 号 对 象 的 相似 度 很 高 ， 优 先 聚 为 一 组 ， 而 在 第 二 次 











13 和 22 号 聚 为 另外 一 组 。 第 三 次 ， 再 次 查找 群 组 之 间 的 相似 度 ， 会 发 现在 (14，17} 思 的 群 组 、{13，22} 的 群 组 ， 以 及 12 单 独 成 立 的 群 组 中 ，{14，17} 群 组 和 {13，22] 群 组 的 相似 度 更 高 ， 因 此 会 再 次 融合 成 
为 14，17，13，22}， 最 后 第 四 次 {14，17，13，22} 再 次 和 12 融 合 。 


%20 19121 13 3 2 3162741824286 10730269251129 











图 2-2 聚 类 的 层次 结构 


那么 接 下 来 就 有 一 个 有 趣 的 问题 ， 如 何 计算 群 组 之 间 的 相似 度 呢 ? 之 前 在 K-Means 聚 类 中 ， 计 算 的 是 单个 数据 对 象 和 质心 间 的 相似 度 ， 就 是 两 个 向 量 之 间 的 比较 。 而 现在 计算 的 是 两 个 群 组 之 间 的 相似 
度 ， 是 两 组 向 量 的 比较 。 两 组 之 间 比 较 的 工作 量 肯 定 更 大 ， 常 见 的 方式 有 三 种 ， 分 别 是 单一 连接 (Single Linkage) 、 完 全 连接 (Complete Linkage) 和 平均 连接 (Average Linkage) 。 











(1) 单一 连接 




















群 组 间 的 相似 度 使 用 两 组 对 象 之 间 的 最 大 相似 度 表示 ， 公 式 如 下 : 


SUN Ci)(C 二 INaX ZI X,Y 


AEC: EC 


其 中 sim (ci，9) 表示 群 组 和 和 群 组 j 之 间 的 相似 度 ，x 和 y 分 别 是 群 组 和 j 内 的 数据 对 象 。 单 一 连接 对 两 组 对 象 之 间 相 似 度 的 要 求 不 高 ， 只 要 两 个 对 象 间 存在 较 大 的 相似 值 就 能 够 使 两 组 优先 融合 。 生 
接 会 产生 链 式 效应 ， 通 过 这 种 连接 方式 来 融合 可 以 得 到 丝 状 结构 。 
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(2) 完全 连接 











群 组 间 的 相似 度 使 用 两 组 对 象 之 间 的 最 小 相似 度 来 表示 ， 公 式 如 下 : 











Si1 cc = mmn sim(x,y 


XEC;,yEC ; 














只 有 在 两 组 对 象 之 间 的 相似 度 很 高 时 ， 才 能 优先 考虑 融合 。 当 各 个 群 组 聚集 得 比较 紧密 ， 类 似 球状 ， 不 太 符合 丝 状 结构 时 ， 使 用 单一 连接 效果 不 佳 。 这 时 可 以 考虑 完全 连接 。 











(3) 平均 连接 














群 组 间 的 相似 度 使 用 两 组 对 象 之 间 的 平均 相似 度 来 表示 ， 公 式 如 下 : 








sim(c,c;)= ave sim(x,y 


XEC: "EC 


相对 而 言 ， 这 种 计算 对 于 各 类 形状 都 是 比较 有 效 的 。 














“ 懂 了 。 这 样 看 来 层次 型 聚 类 虽然 计算 量 大 ， 但 是 对 于 确定 合适 的 聚 类 群 组 还 是 有 所 帮助 的 。 另 外 ， 整 体感 觉 ， 好 像 聚 类 算法 比较 简单 ， 也 完全 不 用 人 工 的 标注 哦 ， 这 样 岂 不 是 比分 类 方便 很 多 ?“ 












































“确实 不 需要 人 工 的 分 类 标注 ， 节 省 了 很 多 运营 的 人 力 。 不 过 ， 聚 类 通常 只 能 发 现 数据 结构 内 部 的 特征 ， 聚 集 出 来 的 群 组 其 解释 性 比 不 上 分 类 。 因 此 ， 聚 类 比较 适合 业务 需求 变化 快 ， 而 且 对 精度 要 求 
不 高 的 分 析 ， 例 如 侦 测 异 常 行为 、 用 户 分 组 等 。 而 分 类 则 更 适合 于 需求 相对 稳定 、 对 精度 要 求 很 高 的 分 析 ， 例 如 搜索 查询 分 类 、 商 品目 录 的 分 类 等 。 或 者 ， 我 们 也 可 以 结合 这 两 者 ， 先 用 聚 类 进行 初步 的 分 
析 ， 然 后 再 让 运营 人 员 通 过 聚 类 的 结果 来 构建 分 类 的 标注 数据 。” 









































趾 一般 是 使 用 “距离 ”来 表示 相似 度 。 这 里 并 不 会 刻意 限制 ，KNN 分 类 算法 中 提 到 了 其 他 非 距离 表示 的 相似 度 。 
[中 通常 {a, b,c…} 表 示 这 些 元 素 的 集合 ， 这 里 表示 它们 组 成 的 群 组 。 





2.3” 聚 类 的 效果 评估 











聚 类 最 终 的 目标 是 将 相似 度 很 高 的 数据 对 象 聚集 到 同一 个 群 组 ， 而 将 不 够 相似 的 数据 对 象 分 隔 在 不 同 的 群 组 。 不 过 ， 在 实际 应 用 中 这 些 相似 度 标准 导致 的 结果 质量 是 否 足够 高 呢 ? 是否 就 一 定 符合 用 户 
的 预期 呢 ? 最 为 直接 的 衡量 方法 是 让 用 户 试用 并 给 出 反馈 ,但 是 这 需要 在 访谈 上 耗费 大 量 的 时 间 和 人 力 。 与 此 同时 ， 聚 类 本 身 又 缺乏 黄金 标准 这 样 的 答案 集合 。 










































































“对 啊 ， 这 样 听 起 来 好 像 聚 类 没有 办 法 做 离线 的 评估 哦 。” 























“也 不 尽 然 ， 昌 然 很 有 挑战 ， 但 是 我 们 还 是 有 一 些 迁 回 的 方法 可 以 尝试 ， 这 里 介绍 一 个 最 为 常用 的 外 部 准则 (External Criterion) 法 。” 














其 实 所 谓 的 外 部 准则 法 ， 就 是 借鉴 分 类 问题 中 的 黄金 标准 和 评价 指标 ， 计 算 聚 类 结果 和 已 有 标准 分 类 的 吻合 程度 。 其 基本 假设 是 : 对 于 每 个 聚 出 来 的 群 组 ， 希 望 其 组 员 来 自 一 个 分 类 ， 尽 量 “ 纯 净 ”。 
举 个 例子 ， 我 们 对 水 果 案 例 中 的 10 颗 水 果 进 行 聚 类 ，2 个 聚 类 算法 在 结束 后 分 别 得 到 下 面 的 分 组 。 














算法 A 

人 

算法 B 

人 

评估 之 前 是 无 法 知道 它们 的 标签 的 ， 需 要 评估 的 时 候 ， 拿 出 分 类 的 标签 作为 参考 答案 ， 我 们 可 以 得 到 :; 
算法 A 

{ 蔷 果 a， 西 瓜 pb， 西瓜 d} ，{ 甜 梅 a， 西 瓜 a} ，{ 革 果 b， 革 果 c， 甜 票 b， 甜 橙 c， 西 瓜 c} 

算法 B 


{ 革 果 a， 西 瓜 p} ，{ 西瓜 d} ，{ 甜 橙 a， 西 瓜 aj，{ 革 果 b， 甜 梅 p， 甜 橙 c0}，{ 蔷 果 c， 西 瓜 c} 











这 样 就 能 衡量 每 个 群 组 的 纯度 。 在 此 之 前 ， 首 先 简短 介绍 下 灶 (entropy) 的 概念 : 它 是 用 来 刻画 给 定 集合 的 纯度 的 ， 如 果 一 个 集合 里 的 元 素 全 部 都 属于 同一 个 分 类 ， 那 么 炳 就 为 9%， 表示 最 纯 争 。 如 果 
元 素 分 布 在 不 同 的 分 类 里 ， 那 么 炳 就 是 大 于 0 的 值 ， 而 且 随 着 分 类 的 增多 ， 元 素 的 分 布 就 越 均匀 ， 灶 也 越 大 ， 表 示 混 乱 程 度 越 高 。 其 计算 公式 如 下 : 




















Entropy(P) = 3 p,; Xlog, p, 
一] 


其 中 nm 表 示 集合 中 分 类 的 数量 ，p 访 示 属于 第 个 分 组 的 元 素 在 集合 中 的 占 比 。 有 了 用 于 分 类 的 训 对 数据， 以 及 糖 的 定义 ， 就 可 以 计算 每 个 聚 类 的 纯度 了 。 对 于 群 组 华 果 b， 苹 果 c， 乔 查 b， 甜 林 c， 西 瓜 
qj 而 言 ， 共 5 个 对 象 ， 苹 果 有 2 个 占 0.4， 垂 述 有 2 个 也 占 0.4， 西 瓜 占 剩余 的 0.2， 其 业 信 约 是 1.52: 


Entropy(P)=-(0.4xlog, 0.4+0.4xlog, 0.4+0.2xlog, 0.2) = 1.52 


由 于 聚 类 结果 有 多 个 群 组 ， 最 后 进行 加 和 平均 : 


Entropy(P)= BY Entropy (#) 
i=] 


那么 算法 A 聚 类 的 结果 其 最 终 整体 的 炳 值 为 : 






































RE Re 
Eniropy(P)= tt 1s 





算法 B 聚 类 的 结果 其 最 终 整 体 的 业 值 为 : 


(1+0+1+0.92+1) 
Entropy(P) se 0.78 


不 过 ， 由 于 聚 类 并 不 会 像 分 类 那样 指定 类 的 个 数 ， 因 此 这 种 最 基础 的 粹 值 评估 存在 一 个 明显 的 问题 : 它 会 偏向 于 聚 出 更 多 的 群 组 ， 这 样 评测 出 的 结论 是 算法 B 会 优 于 算法 A。 但 果真 如 此 吗 ? 西瓜 b 和 d 被 
算法 A 聚集 了 ， 但 被 算法 B 给 拆 分 了 。 最 极端 的 情况 就 是 每 个 数据 对 象 就 是 一 个 群 组 ， 这 样 全 体 的 为 0。 但 是 这 样 并 没有 实际 意义 ， 因 为 没有 产生 任何 的 聚 类 效果 。 所 以 可 将 整体 灼 计算 修正 为 如 下 形 
式 。 


《 






























































Entropy (BR) = Entropy (C) x > Entropy (BR ) 


洲 











里 假设 聚 类 的 划分 是 合理 的 ，Entropy (C) 是 基于 这 个 划分 计算 的 粹 值 ， 如 果 一 个 算法 聚 出 来 很 多 细小 的 群 组 ， 那 么 Entropy (C) 一 定 很 大 ， 会 进行 一 个 惩罚 。 





这 样 一 来 ， 算 法 A 的 Entropy (C) 计算 就 会 变 成 如 下 形式 : 


Entropy(C)=-(0.3xlog, 0.3+0.2xlog, 0.2+0.5xlog, 0.5) = 1.49 
Entropy(P)=1.15x1.49=1.71 


算法 B 的 Entropy (C) 计算 则 变 成 如 下 形式 : 


Entropy(C) = 
2.25 
0.78x2.25=1.76 


人 


Entropy (P) 


除了 标注 数据 ， 聚 类 还 可 以 借鉴 分 类 中 的 评价 指标 ， 例 如 准确 率 (Accuracy) 和 F 值 (F-Measure) 。 
个 分 类 ， 然 后 以 这 个 分 类 作为 答案 ， 将 群 组 作为 “分 类 的 预测 


不 过 前 提 是 
”。 这 样 问题 就 转化 成 为 分 类 的 离线 评估 了 ， 具 体 请 参 





见 之 前 第 1 章 有 关 分 类 的 阐述 


2.4 ”案例 实践 


2.4.1 ”使 用 R 进 行 K 均 值 聚 类 








在 实践 部 分 ， 我 们 仍然 采用 之 前 介绍 的 R 和 Mahout。 首 先是 基于 R 的 快速 测试 。 由 于 之 前 在 分 类 的 R 实 战 中 ， 已 经 进行 











了 很 多 相关 的 预 处 理 ， 





-(0.2xlog, 0.2+0.1xlog, 0.1+0.2xlog, 0.2+0.3xlog, 0.3+0.2xlog, 0.2) 





需要 将 聚 出 的 群 组 和 某 个 标注 的 分 类 对 应 起 来 ， 最 基本 的 方法 是 看 组 员 大 多 数 属 于 哪 


此 这 里 可 以 直接 从 listing_all_knn 开 始 。K 均 值 聚 类 的 函 














数 kmeans () 非常 简单 ， 只 需 指 定 被 聚 类 的 数据 框 (data frame) 和 聚 类 数量 k 即 可 。 此 处 较 难 决定 的 是 聚 类 的 数量 k， 
14000， 因 此 取 平 方 根 的 近似 值 100: 

















一 种 简单 的 经 验 值 是 总 样本 数 一 半 的 平方 根 。 这 里 的 样本 数 为 28000 多 ， 一 半 是 








> listing clusters <- kmeans(listing all knn, 100) 


将 聚 类 的 结果 转化 为 数据 框 ， 然 后 随机 抽取 一 个 聚 类 的 内 容 。 这 里 选取 ID 为 37 的 聚 类 : 





> listing clusters_test <- as.data.frame (listing clusters$cluster) 


> sample ids <- vector (mode="numeric", length=28706) 
> for(i in 1:28706) {sample ids[i] <- i} 
> listing clusters test$sample ids <- sample ids 


> listing clusters test_ subset <- subset (listing clusters test, listing clusters_ 
test[, 1] = 37) 


> listing test subset <- listing[listing clusters test subset[, 2], ] 


查看 这 个 聚 类 所 包含 的 样本 数量 : 





> dim(listing test subset) 
[1] 482 4 





查看 482 个 样本 的 前 20 个 : 


hea (ob ny test_subset, 20) 
Title CategoryID CategoryName 








1 22785 samsung 三 星 galaxy tab3 t211 1g 8g wifi+3g 可 通话 平板 电脑 gps 300 万 像素 白色 15 
2 19436 samsung 三 星 galaxy fame s6818 智能 手机 td-scdma gsm 蓝 色 移动 定制 机 14 = 
40 19971 samsung 三 星 galaxy siv 盖世 4 s4 i9500 双 四 核 手机 大 陆 行货 全 国 联 保 1 
68 22574 samsung 三 星 n5100 galaxy note 8.0 exynos 4412 2g 16g 四 核心 8 寸 平板 电脑 让 脑 
111 19552 samsung 三 星 galaxy mega i9158p 3g 智能 手机 td-scdma gsm 四 核 1.2ghz 处 理 器 是 手机 
116 22422 samsung 三 星 np270e5u-k02cn 15.6 英 寸 笔记 本 电脑 双 核 1007u 4g 500g dvd 刻录 曜 月 黑 15 电脑 
155 19920 三 星 samsung 三 星 galaxy s5 g9008v 4g 智能 手机 td-lte td-scdma gsm 14 手机 
352 21883 samsung 三 星 np450r4v-k02cn 14 寸 笔记 本 电脑 13- 3110m 4g 500g 限 月 黑 15 电脑 
417 20439 samsung 三 星 g3819 智能 手机 cdma2000 gem 双 模 双 待 单 通 电信 14 手机 
466 20687 三 星 galaxy note 3 n9008v 49 手机 = 
502 20858 samsung 三 星 galaxy note ii n719 电信 莽 5.5 寸 双 模 双 待 四 核 ,智能 手机 14 
536 21639 samsung galaxy tab3 t311 8 英寸 1. Sghz 双核 ed 白 棕色 可 选 5 电脑 
539 19916 samsung galaxy s4 i9500 16g 版 3g 智能 手机 wcdma gsm 5.0 寸 屏 双 四 核 cpu 智能 手机 14 手机 
569 21628 samsung galaxy tab3 t311 8.0 英 十 平板 电脑 双 核 16g 通话 功能 500 万 摄像 头 白 了 电脑 
618 20397 samsung 三 星 galaxy note3 n9008v 16g 版 4g 智能 手机 5.7 英 寸 屏 安 卓 4.3 四 核 14 手机 
643 21670 samsung 三 星 galaxy note10.1 wlan 版 p600 10 英 寸 平板 电脑 32g 15 电脑 
679 21643 samsung 三 是 np270e5u-k03cn 15.6 寸 笔记 本 电脑 双 核 1007u 4g S00g d 刻 神秘 银 3 电脑 
759 19393 samsung 三 时 :vale s4 i959 双 模 双 待 智能 手机 cdma2000 gsm 卑 月 白 电信 定制 机 esr 
高 亮 清 到 手机 贴膜 透明 屏幕 保护 贴 适用 于 三 星 galaxy s4 i9500 i9502 i9508 i959 14 手机 
794 22598 samsung 三 星 galaxy tab3 p5200 10 寸 平板 电脑 双 核 1.6ghz 16gb 通话 功能 300w 像素 白色 15 电脑 
809 20407 samsung 三 星 galaxy note 3 n9006 3g 手机 炫 酷 黑 wcdma gsm 5.7 英 寸 屏 14 手机 
这 








你 会 发 现 这 是 一 个 关于 三 星 手机 的 聚 类 ， 其 中 样本 ID 为 466 (listing-segmented-shuffled.txt 文 件 中 的 第 467 行 ) ， 其 商品 ID 为 20687， 标 题 为 
品 明显 偏 得。 那么 ， 是 否 存在 可 能 利用 该 聚 类 ， 为 这 个 商品 丰富 一 下 其 标题 呢 ? 下 一 步 ， 查 看 这 个 聚 类 中 经 常 出 现 的 热门 词 有 哪些 























“三 星 galaxy note 3 n9008v 4g 手 机 ”， 


比较 其 他 相似 


。 将 listing_test_subset 的 Title 字 段 转 为 文档 和 文档 -单词 矩阵 : 





> listing corpus test subset <- VCorpus (VectorSource (listing test subset$Title)) 
> listing dtm test subset <- Document TermMatrix (listing corpus | test Subset., 
control=: =]1ist (wordLengths=: =c (0, Inf) ) ) 






































利用 tm 扩展 包 的 findFreqTerms () 函数 ， 发 现 词 频 达到 10 次 的 单词 如 下 : 
> findFreqTerms (listing dtm test subset, 10) 
1 "1 .2g" "2ghz" ~ "1.6ghz" "10.1" "10.1 寸 " "1007u" "14 寸 " "15.6 寸 " "16g" 
"16gb" non "2g" "3 "32g" "3g" 
[16 "3g-—" n4.0m "4 .0 英寸 " Wa" "4 .3 英寸 " wag" "500g" "8.0" "ggb" 
"8 英寸 " nandroid" Medina "cdma2000" "cpu" ng" 
[si ngva" "galax "gps" "gsm" "i8268" "i9500" Wa "mega" nn5100" 
"n5110" "n7100" "n9008v" "note" note3" "s-pen" 
[46 vas" "s4" eS™ "Ss7568i"™ "samsung" "gsd" Eab3” "td-lte" "td-scdma" 
"trend" mea mwifi" "三 星 " "全 国 " "内 存 " 
[61 " 刻 " "刻录 " "功能 " "让 " 双 " " 双 模 " "可 " "四 " "处 理 器 " 
nm 大 " 安 " "官方 " "定制 " " 屏 " " " 
[76 "平板 " " 待 " "手机 " "显卡 " "智能 " "智能 手机 " nn "月 " "机 " 
" 标 配 " " 核 " "正品 " " 摔 " "版 " "现货 " 
[91 "电信 " "电脑 " " 白 " "白色 " "盖世 "移动 " "笔记 本 电脑 " "系统 " " 联 保 " 
"联通 " "蓝牙 " "行货 "通话 " " 酷 " Ce 
[106 "黑色 " 
结果 非常 有 意思 ， 你 会 受到 不 少 启发 。 例 如 ，“ 智 能 手机 ”“16gb”“3g”， 这 些 词 都 没有 出 现在 样本 466 的 标题 中 。 如 果 仔 细 研 究 “ 三 星 galaxy note 3 n9008v 4g 手 机 ”这 款 手 机 ， 你 很 可 能 会 发 


现 这 几 个 词 都 是 相关 的 ， 是 非常 棒 的 描述 。 可 惜 ， 原 有 的 样本 标题 却 未 能 包含 。 如 此 一 来 ， 搜 索 “智能 手机 ”“16gb” “39” 等 词 的 时 候 这 个 样本 商品 就 无 法 被 找到 中。 


再 看 个 例子 ， 这 次 我 们 观察 ID 为 28 的 聚 类 : 





> listing clusters test subset <- subset (listing clusters test, listing clusters_test[， 
> listing test subset <- listing[listing clusters test subset[, 2], ] 加 

> dim(listing test _ subset) 

[1] 196 4 


1] = 28) 








在 其 中 我 们 也 能 发 现 一 些 标题 很 短 的 商品 ， 例 如 : 





























> listing test subset[40:50,] 
ID Title CategoryID CategoryName 
4742 10562 我 们 时 代 休闲 零食 澳洲 夏 果 夏威夷 果 奶油 味 168gx3 袋 8 坚果 
4933 10305 es | 果 200 牛 奶油 味 澳洲 夏 果 坚果 休闲 零食 干果 特产 果实 
坚果 小 8 
5013 10350 良品 铺子 新 品 良 品 让 核桃 仁 150g 二 日 原料 眉 根 果 坚果 休闲 零食 8 坚果 
5049 9689 ”三 只 松鼠 正 根 果 210gx2 包 奶油 味 长 寿 果 休闲 零食 坚果 美国 山 核桃 bel 8 坚果 
5397 ”10322 ” 咬 噶 猎 坚果 干果 特产 美国 山 核桃 长 寿 果 奶 香 眉 根 果 2089 8 坚果 
5467 9742 “车 哥 澳洲 夏 威 更 果 200g 3 袋 多 人 人 零食 特产 坚果 
5572 11114 ”松鼠 请 客 夏威夷 果 奶油 夏威夷 果 居 坚果 年 货 零食 J 2 袋 8 坚果 
5771 ”10384 ”百草 味 坚果 零食 眉 根 果 218g ES 为 蒜 有 果 美国 山 核桃 8 坚果 
5878 9870 新 农 哥 坚果 炒货 夏威夷 果 168 克 休闲 零食 8 坚 
6183 11373 良 品 铺子 夏威夷 果 盐 烛 味 280g 澳洲 夏 果 坚果 全 零食 坚果 
6215 11192 ”零度 果 坊 买 1 箱 送 1 箱 老年 混合 坚 打 伍 原 味 礼盒 镀 装 0 碧 根 浊 
核桃 松子 休闲 零食 品 袋 装 8 坚果 
































其 中 ， 样 本 ID 为 5878 的 样本 ， 其 商品 ID 为 9870， 标 题 为 “新 农 哥 坚果 炒货 夏威夷 果 168 克 休闲 零食 ”。 来 看 看 同一 个 聚 类 中 ， 其 他 相似 商品 一 般 是 怎样 描述 的 





> listing corpus test subset <- VCorpus (VectorSource (listing test subset$Title)) 
> listing dtm test subset <- Document TermMatrix (listing corpus | test .subset, control=list (wordLengths=c (0, Inf))) 
> findFreqTerms (listing . dtm test subset, 10) 


[1] "180g" "200g"， "218g" "2 伐 " "休闲 " " 农 " " 剥 " "办 公 室 " " 包 " " 原 " " 口 器 " 
"口水 " " 味 " " 哥 " "器 " "坚果 " " 膏 " "夏威夷 " " 奶 " "奶油 " "奶油 味 " 
[23] "小 力 " 山 核 宙 * "干果" ” "年货" " 开 ” "新 "” "新 货 " "松鼠 " " 果 " " 果 仁 " "核桃 " 
[45] " 送 " "长 考 " " 零 " "零食 " " 食 " "食品 " " 香 " "香味 " 
> 











如 果 这 个 夏威夷 坚果 是 美国 进口 的 ， 而 且 是 奶油 口味 的 ， 那 么 错过 了 “美国 。 “奶油 味 ”这 样 的 关键 词 ， 也 是 非常 可 惜 的 。 看 了 这 两 例子 ， 试 想 一 下 ， 如 果 将 这 些 数 据 提供 给 商家 ， 让 他 们 进行 合理 的 


关键 词 搜索 引擎 优化 ， 那 么 将 对 顾客 搜索 的 体验 、 卖 家 的 销售 转化 率 ， 以 及 平台 的 最 终 收益 将 会 产生 何等 可 观 的 价值 ? 


单 台 





不 过 ， 和 KNN 相 仿 ，K 均 值 聚 类 算法 最 大 的 问题 就 是 运行 时 间 ， 计 算 复 杂 度 通常 是 O (nkl) ，n 是 样本 总 数 ，k 是 聚 类 数量 ，| 是 迭代 次 数 。 即 使 样本 的 数量 只 有 2 万 多 ， 期 望 的 聚 类 数量 也 只 有 100, 在 
iMac 上 运行 R 的 代码 ， 时 间 也 达到 了 数 十 分 钟 。 为 此 ， 我 们 将 试图 从 Mahout 那 里 找到 更 好 的 解决 方案 。 














2.4.2 ”使 用 Mahout 进 行 K 均 值 聚 类 


Means，Mahout 提 供 了 基本 的 基于 内 存 的 实现 和 基于 Hadoop Map/Reduce 的 实现 。 首 先 我 们 还 是 从 单机 的 内 存 版 开始 。 由 于 之 前 基于 词 频 tf 的 向 量 已 经 准备 就 绪 ， 我 们 可 以 直接 使 


1. 通 过 命令 行进 行 聚 类 





和 分 类 任务 相似 ， 有 的 时 候 我 们 希望 进行 大 规模 的 并 行 处 理 。 这 里 同样 是 在 Mahout 平 台 上 开展 相关 的 实验 。Mahout 中 的 聚 类 算法 同样 实现 了 K-Means 算 法 ， 以 及 针对 其 所 做 的 优化 和 扩展 。 对 于 K- 




















mahout 命 令 的 





kmeans 选 项 : 





[huangsean@iMac2015: /Users/huangsean/Coding]mahout kmeans -i /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-vec/tf- 

vectors -c /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented- 

shuffled-kcentroids -o /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-kclusters -dm org.apache.mahout .common.distance.Euclidean 
DistanceMeasure -k 100 -x 10 -cl -ow -xm sequential 

MAHOUT LOCAL is set, so we don't add HADOOP CONF DIR to classpath. 

MAHOUT LOCAL is set, running locally 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 

17/01/18 20:35:13 INFO driver.MahoutDriver: Program took 14644 ms (Minutes: 0.24 

406666666666665) 





欧式 距离 。 最 后 ，-k 指 定 了 聚 类 的 个 数 ，-x 指 定 了 最 大 的 迭代 次 数 ， 以 免 过 久 的 循环 计算 。 





























其 中 ，-c 指 定 的 目录 ， 是 用 于 存储 系统 随机 挑选 的 质心 的 。 而 -o 指 定 的 目录 则 用 于 存储 聚 类 的 结果 ，org.apache.mahout.common.distance.EuclideanDistanceMeasure 将 向 量 相似 度 的 计算 设置 为 
运行 结束 后 ， 可 以 看 到 如 图 2-3 所 示 的 聚 类 结果 文件 。 其 中 cluster-0 ~ 9 目录 代表 了 10 次 迭代 ， 每 个 目录 均 包 含 了 
































某 次 迭代 中 的 结果 ， 而 part-00028 表 示 某 轮 进 代 中 第 29 个 聚 类 四 的 内 容 ， 每 个 迭代 的 目录 中 包含 了 一 共 100 个 这 样 的 文件 。 


Today 


有 
有 





ll listing-segmented-shuffled-kcentroids clusters-0 


| listing-segmented-shuffled-kclusters 
Ml listing-segmented-shuffled-seq 


国 listing-segmented-shuffled-vec 


Yesterday 
国 listing-segmented-shuffled-mahout 


砚 listing-segmented-sh...d-mahout-labelindex 
国 listing-segmented-shuffled-mahout-results 
H listing-segmented-shuffled-mahout.zip 


Dl listing-segmented-shuffled-model 
ll listing-segmented-shuffled-test 
egmented-shuffled-train 


由 于 这 种 聚 类 结果 对 我 们 来 说 并 不 可 读 ， 所 以 还 需要 clusterdump 选 项 来 导出 可 读 的 结果 


图 2-3 聚 类 结果 文件 


clusters-1 
clusters-2 
clusters-3 
clusters-4 
clusters-5 
clusters-6 
clusters-7 
clusters-8 


clusters-9-final 


My vv 


part-00028 
part-00029 
part-00030 
part-00031 
part-00032 
part-00033 
part-00034 
part-00035 
part-00036 
part-00037 
part-00038 








[huangsean@iMac2015:/Users/huangsean/Coding]mahout clusterdump -dt sequencefile 
-d /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented- 


shuffled-vec/dictionary.file-* -i /Users/huangsean/Coding/data/BigDataArchitecture 
AndAlgorithm/listing-segmented-shuffled-kclusters/clusters-*-final -o /Users/huangsean/ 
Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-kclusters- 


dump.txt -b 1 -n 20 
MAHOUT LOCAL is set, so we don't add HADOOP 
MAHOUT LOCAL is set, running locally 


”CONF_ DIR to classpath. 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 


17/01/18 20:36:07 INFO driver.MahoutDriver: 


Program took 624 ms (Minutes: 0.0104) 











其 中 -dt 和 -d 参 数 指定 了 字典 的 类 型 和 存储 位 置 ， 让 你 可 以 看 到 聚 类 样本 的 文本 信息 。 而 -i 指定 了 最 后 一 轮 迭 代 的 目录 ， 


n 设 置 为 20 是 为 了 导出 聚 类 中 的 更 多 热 词 。 打 开导 出 后 的 文件 listing-segmented-shuffled-kclusters-dump.txt， 在 其 底部 可 以 看 到 这 样 的 内 容 : 











从 热 词 可 以 看 出 ， 这 是 一 个 和 电脑 商品 有 关 的 聚 类 。 完 整 的 listing-segmented-shuffled-kclusters-dump.txt 文 件 位 于 : 





=> 1.012448132780083 
=> 0.9336099585062241 
=> 0.5103734439834025 
=> 0.5020746887966805 
=> 0.4979253112033195 
=> 0.4190871369294606 
=> 0.4190871369294606 

=> 0.3236514522821577 

=> 0.27800829875518673 
=> 0.24066390041493776 
=> 0.23236514522821577 
=> 0.21991701244813278 
=> 0.1991701244813278 
=> 0.18672199170124482 
=> 0.17842323651452283 

=> 0.17427385892116182 
0.17427385892116182 
0.17012448132780084 
0.16597510373443983 
=> 0.16597510373443983 








-0 指定 了 存放 导出 结果 的 文件 。 将 -b 设 置 为 1 是 为 了 跳 过 聚 类 成 员 的 见长 内 容 ，- 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Clustering/Mahout/listing-segmented-shuffled-kclusters-dump.txt 


从 理论 知识 的 介绍 中 ， 你 不 难 发 现 K-Means 的 参数 选择 是 个 问题 。 











才能 找 出 一 个 最 优 的 
来 很 大 的 负面 影响 。 


个 


值 ; 此 外 ， 由 于 算法 在 最 开始 采 





“Canopy” 





(Canopy 之 间 可 以 有 重生 的 部 分 ) ， 然 后 采 | 



































理 ， 








来 找到 合适 的 k 值 和 群 组 质心 。 











MAHOUT LOCAL is set, so we don't add HADOOP 
MAHOUT LOCAL is set, running locally 


为 了 实现 这 一 步 ， 


可 以 执行 如 下 的 操作 : 


”CONF_DIR to classpath. 


首先 K-Means 需 要 在 执行 聚 类 之 前 就 有 明确 的 群 组 个 数 设 置 ， 但 在 处 理 大 部 分 问题 时 ， 这 一 点 事先 很 难 知道 ， 
的 是 随机 选择 初始 质心 的 方法 ， 所 以 算法 对 噪音 和 异常 点 的 容忍 


如 能 力 较 





一 般 需 要 通过 多 次 试验 


。 一 旦 噪声 点 在 最 开始 被 选 作 群 组 的 初始 质心 ， 就 会 对 后 面 整 个 聚 类 过 程 带 





适 的 群 组 中 。Canopy 聚 类 算法 经 常 





http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/,.. 


17/01/18 20:37:39 INFO driver.MahoutDriver: 


Program took 45502 ms (Minutes: 


0.7583666666666666) 


因此 ，Mahout 还 实现 了 Canopy 算 法 ， 用 于 优化 K-Means 聚 类 的 效果 。Canopy 聚 类 算法 的 基本 原则 是 : 首先 应 用 低 成 本 的 近似 的 相似 度 计算 方法 将 数据 高 效 地 分 为 多 
严格 的 距离 计算 方式 准确 地 计算 在 同一 Canopy 中 的 点 ， 将 它们 分 配 到 最 合 











作 K-Means 聚 类 算法 的 预 处 














huangsean@iMac2015: /Users/huangsean/Coding]mahout canopy -i /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-vec/tf-vectors -0 /Users/ht 








始 聚 类 : 





其 中 t1 和 t2 是 Canopy 算 法 的 距离 参数 ， 要 求 t1 大 于 t2。 可 适当 调整 两 者 的 值 ， 以 产生 合适 的 k 值 。 同 样 可 以 使 

















mahout 命 令 的 clusterdump 查 看 Canopy 初 始 聚 类 的 结果 ， 可 以 看 到 这 里 将 产生 76 个 初 





[huangsean@iMac2015:/Users/huangsean/Coding]mahout clusterdump -dt sequencefile -d /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-vec/c 


MAHOUT LOCAL is set, so we don't add HADOOP 
MAHOUT LOCAL is set, running locally 


”CONF_ DIR to classpath. 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 


17/01/18 20:38:36 INFO driver.MahoutDriver: 


Program took 825 ms (Minutes: 0.01375) 











再 次 使 








kmeans 选 项 进行 聚 类 : 








[huangsean@iMac2 015:/Users/huangsean/Coding]mahout kmeans -i /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-vec/tf-vectors -c /Users/ht 


MAHOUT LOCAL is set, so we don't add HADOOP ( 
MAHOUT LOCAL is set, running locally 


CONF DIR to classpath. 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/,.. 


17/01/18 20:39:45 INFO driver.MahoutDriver: 




















特别 注意 的 是 ， 不 要 再 设 





这 里 需 





Program took 13907 ms (Minutes: 


0.23178333333333334) 























-k 选 项 ， 否 则 刚刚 通过 Canopy 生 成 的 质心 将 被 随机 质心 所 覆盖 。 最 后 ， 使 F 








clusterdump 选 项 导出 聚 类 的 内 容 : 








[huangsean@iMac2015: /Users/huangsean/Coding]mahout clusterdump -dt sequencefile -d /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-vec/c 
MAHOUT LOCAL is set, so we don't add HADOOP CONF DIR to classpath. 

MAHOUT LOCAL is set, running locally 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 

17/01/18 20:40:11 INFO driver.MahoutDriver: Program took 549 ms (Minutes: 0.00915) 





中 ， 


完整 的 聚 类 内 容 文件 位 于 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Clustering/Mahout/listing-segmented-shuffled-kcluster-canopy-dump.txt 



































如 果 要 在 多 机 环境 中 使 








Mahout 的 聚 类 算法 ， 








体 步骤 和 1.3.6 节 介绍 的 类 似 ， 首 先 搭建 Hadoop 环 境 ， 将 数据 上 传 至 HDFS 中 ， 然 后 运行 类 似 的 聚 类 算法 命令 。 





体 实现 过 程 这 里 就 不 再 歼 述 了 











2. 实 时 聚 类 ? 


“小 明 哥 ， 为 什么 要 给 “实时 聚 类 ”加 个 问号 呢 ?“ 











“大 宝 ， 如 果 你 仔细 和 





读 一 下 ， 就 会 发 现 聚 类 算法 所 解决 的 问题 都 是 批量 数据 的 处 理 ， 计 算 量 很 大 ， 因 此 常常 需要 在 Hadoop 平 台 上 进行 并 行 化 ， 而 不 会 涉及 实时 性 的 服务 。 








么 ， 如 何 解决 商家 能 提出 的 关键 词 SEO 问题 呢 ? 他 们 很 可 能 需要 即时 地 获取 结果 ， 例 如 输入 一 个 商品 的 标题 ， 系 统 很 快 就 能 提示 可 能 缺失 了 哪些 重要 的 关键 词 。” 大 宝 问 道 。 





“这 是 个 很 好 的 问题 。 不 过 ， 你 再 思考 一 下 自己 刚刚 所 说 的 ， 就 会 发 现 这 个 问题 变 成 了 聚 类 的 一 个 子 问题 ， 和 KNN 分 类 更 像 。 普 通 的 聚 类 是 要 将 所 有 的 数据 样本 ， 划 分 到 一 个 大 家 都 长 得 很 相似 的 组 
而 你 刚刚 描述 的 需求 是 为 单个 数据 样本 ， 找 到 和 它 最 相似 的 其 他 样本 ， 商 家 并 不 关心 除了 所 输入 商品 之 外 的 其 他 商品 之 间 的 关系 ， 这 为 实时 服务 提供 了 可 能 。 不 过 ， 在 n 个 样本 中 找 出 相似 度 最 高 的 k 个 














样本 ， 常 规 解法 的 时 间 复杂 度 仍然 达到 了 O (nlogk) Bl， 这 还 没有 包括 向 量 之 间 相 似 度 计算 的 开销 。” 


对 于 在 线 服务 ， 性 能 确实 是 个 大 问题 啊 !“ 











“不 要 着 急 ， 也 不 是 说 这 个 需求 就 没有 办 法 解决 了 。 我 们 完全 可 以 利 





现 有 的 一 些 系统 进行 








优化 的 实现 。 在 之 后 介绍 推荐 系统 的 时 候 ， 其 中 有 一 个 关键 步骤 和 这 个 任务 非常 相近 ， 我 们 会 在 那个 时 候 进 





行 详细 的 阐述 。“ 


上 具体 的 原因 ， 我 们 将 在 第 4 章 有 关 搜 索 倒 排 索引 的 部 分 详细 阐述 。 
D] 聚 类 编号 从 0 开始 。 
[3] 理论 上 存在 O(n) 的 算法 ， 不 过 其 对 内 存 空间 的 要 求 更 高 。 


第 3 章 方案 设计 和 技术 选 型 : 因 变 量 连续 的 回归 分 析 




















利用 分 类 和 聚 类 技术 解决 了 前 面 两 个 问题 之 后 ， 本 章 最 终 要 关注 小 丽 提出 的 第 三 大 需求 : 在 合理 的 范围 内 预测 商品 的 销售 转化 率 。 


























“这 项 任务 看 上 去 不 可 能 完成 啊 ! ”大 宝 不 禁 感叹 道 。 “大 宝 ， 你 说 


的 有 道理 。 销 售 和 证 券 市 场 类 似 ， 影 响 其 变化 的 因素 实在 是 太 多 了 。 不 过 ， 我 们 可 以 大 胆 假设 一 点 : 历史 总 是 惊人 的 相似 。 遵 循 一 定 的 科学 方法 ， 在 某 些 场 景 下 根据 先前 的 数据 进行 尝试 ， 也 许 能 发 现 示 来 














的 一 些 规律 。 今 天 ， 我 们 就 来 讲述 另 一 个 重要 的 机 器 学 习 方 法 : 因 变量 连续 的 回归 分 析 。” 








3.1 线性 回归 的 基本 概念 





本 章 之 前 阐述 的 分 类 问题 会 根据 某 个 样本 中 的 一 系列 特征 输入 ， 最 后 判定 其 应 该 属于 哪个 分 类 ， 然 后 预测 出 一 个 离散 的 分 类 标签 。 现 实 中 ， 除 了 分 类 还 面临 着 一 种 问题 ， 如 何 根据 一 系列 的 特征 输入 ， 





给 出 连续 的 预测 值 》 例 如 这 里 所 说 的 ， 电 子 商务 网 站 根据 销售 的 历史 数据 ， 预 估 新 商品 在 未 来 的 销售 情况 ， 就 是 一 种 典型 的 应 





























场景 。 如 果 只 是 预 估 卖 得 “好 ”还 是 “不 好 ”， 粒 度 明 显 太 粗 ， 不 利于 商品 


的 排序 ， 如 果 预 估 值 是 其 转化 率 或 绝对 销量 ， 那 就 相对 比较 合理 了 。 再 次 回 到 水 果 的 案例 ， 重 新 假想 一 个 场景 ， 我 们 邀请 的 果农 都 是 久 经 沙场 的 老将 ， 对 于 水 果 稍 加 评估 就 能 预测 有 百 分 之 多 少 的 概率 能 卖 

















出 去 。 再 将 1000 颗 水 果 放 入 一 个 黑箱 中 ， 每 次 随机 摸 出 一 颗 ， 这 次 我 们 不 再 让 果农 判断 它 是 属于 苹果 、 垂 榜 还 是 西瓜 ， 而 是 让 他 们 根据 水 果 的 外 观 、 分 量 等 








0% 到 100% 之 间 的 任何 一 个 实数 值 。 这 就 是 最 基本 的 因 变 量 连 续 回 归 分 析 ]。 






























































path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/...，yi 与 男 一 些 变 量 x1,x2, http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/16351/OEBPS/Text/...，xk 之 间 关 系 的 统计 方法 ， 又 称 多 重 

















path=/openresources/teach_ebook/uncompressed/16351/OEBPS/Text/...，yi 称 为 因 变 量 ,，x1,，x2, http://www.hzcourse.com/resource/readBook? 
因 变 量 的 值 可 以 分 解 为 两 部 分 : 一 部 分 是 来 
因素 和 随机 性 的 影响 ， 即 随机 误差 。 
































path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/...，xk 称 为 自 变 量 。 通 常情 况 下 ， 
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归 按 照 不 同 的 维度 可 以 分 如 下 为 几 种 。 
“ 按照 自 变量 数量 : 当 自 变量 x 的 个 数 大 于 1 时 称 为 多 元 回归 。 


“ 按照 因 变 量 数量 : 当 因 变量 y 的 个 数 大 于 1 时 称 为 多 重 回归 。 


“ 按照 模型 : 如 果 因 变 量 和 自 变量 为 线性 关系 ， 就 称 为 线性 回归 模型 ; 如 果 因 变量 和 自 变 量 为 非 线 性 关系 ， 则 称 为 非 线 性 回归 分 析 模 型 。 举 个 例 
大 体 上 有 线性 关系 ， 这 叫 一 元 线性 回归 ， 即 模型 为 Y=a+bX+e， 这 里 又 是 自 变量 ，Y 是 因 变 量 ，s 是 随机 误差 ， 通 常 假定 随机 误差 的 均值 为 0。 


其 中 函数 的 形式 是 已 知 的， 可 能 是 线性 函数 也 可 能 是 非 线性 函数 ， 但 含有 一 些 未 知 参数 ; 另 一 部 分 是 来 自 于 其 他 未 被 考虑 的 


















































素 预 估 其 卖 出 去 的 可 能 性 是 多 少 ， 可 能 性 是 





因 变 量 连 续 回归 的 训练 和 测试 流程 及 分 类 大 体 相当 ， 不 过 采用 的 具体 技术 会 有 所 不 同 ， 它 采用 的 是 研究 一 个 或 多 个 随机 变量 y1，y2，http://www.hzcourse.comy/resource/readBook? 


可 归 分 析 。 我 们 将 y1,，y2,，http://www.hzcourse.com/resource/readBook? 






























































变量 的 影响 ， 即 表示 为 自 变量 相关 的 函数 ， 














子 ， 最 简单 的 情形 是 一 个 自 变量 和 一 个 因 变 量 ， 且 它们 














假设 此 处 的 水 果 案 例 中 ， 每 个 水 果 都 有 6 个 特征 维度 ， 包 括 形 状 、 颜 色 、 重 量 等 。 这 六 维 就 是 自 变量 ， 最 终 卖 出 的 概率 是 一 重 因 变 量 。 











通过 六 元 




















自 变 量 预 测 最 终 卖 出 概率 的 这 个 因 变 量 ， 称 为 六 元 一 重 回 

















归 分 析 。 至 于 是 否 线性 回归 ， 则 需要 看 训练 过 程 中 ， 线 性 回归 模型 是 否 能 很 好 地 拟 合 学 习 样本 ， 使 得 随机 误差 足够 小 。 如 果 不 能 ， 那 就 需 














中 离散 的 点 是 训练 数据 实例 ， 直 线 是 回归 学 习 后 确定 的 拟 合 线 。 从 左 侧 可 以 看 出 ， 实 例 点 和 学 习 的 直线 非常 接近 ， 误 

















尝试 非 线性 的 回归 模型 。 图 3-1 展 示 了 二 维 空间 里 的 拟 合 程度 ， 图 
































为 左 侧 的 拟 合 度 要 好 于 右 侧 ， 而 且 左 侧 学 习 得 出 的 函数 参数 更 可 信 。 而 右 侧 可 能 需要 考虑 换 成 其 他 非 线性 的 回归 函数 。 


wm 











图 3-1 左 图 拟 合 度 较 好 ， 误 差 小 ; 右 医 











拟 合 度 较 差 ， 误 差 大 


























假设 在 水 果 的 案例 中 我 们 足够 幸运 ， 最 基本 的 线形 回归 效果 很 好 ， 获 得 了 如 下 的 预测 函数 : 





比较 小 。 而 右 侧 却 相反 ， 实 例 点 和 学 习 得 出 的 直线 距离 都 比较 远 。 这 种 情况 下 我 们 认 





conversion (0)= w, + wx Shape+w,xColor +w,xTexture + ws x Weight + ws x Feel + we xTaste 


=0.32+0.15xShape+0.28x Color+0.03xTexture 
—0.08x Weight —0.12x Feel +0.75xTaste 














那么 ， 在 预测 的 时 候 ， 我 们 将 新 的 数据 对 象 的 各 个 维度 特征 值 带 入 上 述 公式 ， 那 么 就 可 以 得 到 预 估 的 转化 率 。 不 过 在 现实 的 数据 中 ， 情 况 往往 比较 复杂 。 对 此 ， 我 们 还 可 以 进行 相关 性 分 析 ， 用 于 确定 
如 下 关系 。 


“ 每 个 自 变 量 和 因 变 量 之 间 的 关系 ， 初 步 估 计 对 于 最 终 预测 而 言 ， 是 比较 重要 的 因素 。 


“不同 自 变量 之 间 的 关系 ， 发 现 可 能 宛 余 的 因素 。 





















































常见 的 相关 系数 是 皮尔 森 (Pearson) 系数 ， 它 是 用 来 反映 两 个 变量 线性 相关 程度 的 统计 量 。 取 值 范围 在 -1，1]， 绝 对 值 越 大 ， 说 明 相关 性 越 高 ， 负 数 表 示 负 相关 。 图 3-2 表 示 了 正 相关 和 负 相 关 的 含 
义 。 左 侧 X 曲 线 和 Y 曲 线 有 非常 近似 的 变化 趋势 ， 当 X 上 升 Y 往 往 也 是 上 升 的 ，X 下 降 Y 往 往 也 下 降 ， 这 就 表示 两 者 有 较 强 的 正 相关 性 。 右 侧 X 和 Y 两 者 的 变化 趋势 正好 相反 ， 当 X 上 升 的 时 候 ，Y 往 往 是 下 降 
的 ，X 下 降 的 时 候 ，Y 往 往 是 上 升 的 ， 这 就 表示 两 者 有 较 强 的 负 相关 性 。 






































图 3-2 ” 左 图 为 正 相 关 示 例 ; 右 图 为 负 相 关 示 例 





皮尔 森 系数 没有 考虑 重 赫 数 对 结果 的 影响 。 计 算 公式 如 下 : 








.0 Ry mM mt 
9 Ms| Sy Ve 


其 中 n 表 示 向 量 维度 ，x 和 yi 分 别 为 两 个 向 量 在 第 i 维 的 数值 。X 和 Y 分 别 表示 两 个 向 量 维度 值 序列 的 均值 ，sX 和 sY 分 别 表示 两 个 向 量 维度 值 序列 的 标准 差 。 


























由 于 这 些 回归 分 析 的 理论 不 容易 理解 ， 我 们 将 直接 使 用 R 中 的 工具 开展 深入 的 分 析 ， 同 时 进行 相关 的 讲解 。 





[中 因 变 量 离散 的 逻辑 回归 属于 分 类 算法 ， 这 里 不 做 展开 。 之 后 提 及 的 回归 也 都 是 指 因 变 量 连 续 的 回归 分 析 。 


3.2 ”案例 实践 


3.2.1 “实验 环境 设置 


本 节 所 要 进行 的 实验 内 容 是 ， 根 据 商 品 的 某 些 历史 数据 ， 发 现 影响 转化 率 的 因素 ， 以 及 相应 的 权重 。 














注 
意 和 之 前 的 实验 一 样 ， 这 里 所 用 的 数据 ， 以 及 结论 都 是 实验 性 质 的 ， 请 根据 自己 的 情况 合理 运用 。 不 要 将 这 些 测试 数据 及 其 相关 结论 生 搬 硬 套 地 实施 到 自己 的 项 目 中 。 


首先 查看 位 于 这 里 的 数据 文件 : 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Linear-Regression/Sales.Prediction.txt 


在 R 中 加 载 该 文件 : 





> listing for prediction <- read.csv("/Users/huangsean/Coding/data/BigData 
ArchitectureAndAlgorithm/Sales.Prediction.txt", stringsAsFactors = FALSE, sep="'\t') 





数据 文件 的 部 分 内 容 如 下 : 





> listing for prediction 

ID Title CategoryID CategoryName OneMonthConversionRateInUV OneWeekConversionRateInUV 
SellerReputation IsDeal IsNew IsLimitedStock TargetValue 
1 22785 samsung 三 星 galaxy tab3 t211 1g 8g wifi+3g 可 通话 平板 电脑 gps 300 万 像素 白色 妈 电脑 


0.021 0.022 3 0 0 0.032 


2 19436 Sn lory fame oa 智能 手机 0 gsm 蓝 色 移动 定制 机 1 手机 
0.0. 1 0 0. 

3 0 金本位 美 守 0 鱼刺 250g， 3 -kr 
0. 066 0.054 0. 

4 ”3787 莲花 居 预 售 pn 大 实物 558 由 从 3 8 3 两 母 2.3-2.6 两 5 对 装 3 海鲜 水 产 


0.034 0.029 
5 0 3on9s 可 纯 让 51 各 名 非 4 5 300ml 小 油 1 瓶 9 食用 油 
0 55 


6 re 2 下 诗 8 系列 去 六 由 沉 发 水 250t 去 悄 止 痒 男士 专用 进口 专业 洗 护 发 16 美发 护 发 
0.268 0.254 I 0 0.403 
7 25150 dove 多 芬 丰盈 尖 肤 人 Rl 乳 本 | 和 下 加 A 400ml 5 瓶 17 沐浴 露 


0.193 0.214 3 

8 14707 魏 小 守 Moixiaohong 长 和 更 toow 1 人 内 对 安徽 宣 城 水 东 特产 10 刺 类 

0.272 0 0.371 

9 28657 80 和 平 阴 下 玫瑰 六 花草 全 人 茶 冲 饮 50 克 袋 18 茶叶 
0.084 0 

10 6 人 JE 则 。 脆 入 脆 米 心 4 人 5609 AN 6 巧克力 








http: 2 ee com/ 0 和 





从 中 可 以 看 到 ， 除 了 之 前 的 商品 的 ID、Title、CategoryID、CategoryName 字 段 ， 这 个 数据 集 还 包括 了 如 下 字段 。 
OneMonthConvetrsionRateInUV: 之 前 一 个 月 商品 的 转化 率 (基于 唯一 访问 ) ， 计 算 方法 是 购买 该 商品 的 唯一 访问 人 数 除 以 所 有 浏览 过 该 商品 的 唯一 访问 人 数 ， 取 值 范围 是 0 到 1 之 间 的 实数 。 


OneWeekConversionRateInUV: 定义 与 DneMonthConvetrsionRateInUV 相 仿 ， 不 过 时 间 周 期 是 前 一 周 。 无 论 是 传统 零售 还 是 电子 商务 ， 都 会 根据 已 有 的 销量 和 人 和 气 来 预测 热卖 的 商品 。 因 此 


OneMonthConversionRateInUV 和 OneWeekConversionRateInUV 是 两 个 常用 的 考量 因素 。 
“SellerReputation: 当前 商家 的 信誉 评级 ， 取 值 范围 是 1 到 5 星之 间 的 整数 。 在 电 商 行业 中 ， 商 家 的 口碑 对 消费 者 更 为 透明 ， 对 他 们 的 购买 决策 起 到 了 更 为 关键 的 作用 ， 因 此 也 会 影响 到 销量 。 


“ IsDeal: 是 否 正在 促销 ， 取 值 范围 是 0 或 1 的 整数 。1 表 示 正 在 进行 促销 ， 价 格 有 优惠 。0 表 示 没 有 。 价 格 永远 是 影响 销量 的 核心 因素 之 一 。 业 内 经 常 讨论 的 需求 价格 弹性 ， 其 实 也 是 一 种 回归 分 析 ， 试 图 
找 出 用 户 需求 和 价格 之 间 的 关系 。 这 里 我 们 的 分 析 也 与 此 类 似 ， 不 过 考虑 了 更 多 其 他 的 因素 。 


“ IsNew: 是 否 为 刚刚 上 市 的 新 品 ， 取 值 范围 是 0 或 1 的 整数 。1 表 示 为 刚刚 上 市 的 新 品 ，0 表 示 不 是 新 品 。 对 于 某 些 领域 ， 例 如 电子 消费 品 、 时 尚 服饰 等 ， 新 品 可 能 比 现 有 的 畅销 款 更 有 吸引 力 ， 也 需要 考 
虑 在 内 。 


“ IsLimitedStock: 库存 是 否 有 限 ， 取 值 范围 是 0 或 1 的 整数 。 当 商品 库存 有 限 ， 即 将 售 馨 的 时 候 ， 消 费 考 有 可 能 会 加 速 购买 的 决策 。 


"TargetValue 字 段 : 某 天 销量 的 真实 值 ， 取 值 范围 是 0 到 1 之 间 的 实数 。 














我 们 的 实践 任务 将 TargetValue 这 个 字段 定义 为 因 变量 ， 而 将 其 他 字段 定义 为 自 变量 。 换 言 之 ， 我 们 试图 发 现 ， 对 于 某 天 的 销量 而 言 ， 哪 些 因素 会 影响 它 ” 是 之 前 一 段 时 间 内 的 历史 销量 、 商 家 的 信誉 
程度 、 还 是 促销 力度 和 剩余 库存 ， 等 等 ? 如 果 有 影响 ， 那 么 影响 的 程度 有 多 大 ?如 果 能 够 在 一 定 程度 上 进行 衡量 ， 那 么 对 于 未 来 的 商品 销量 ， 就 能 依照 历史 数据 进行 合理 的 预测 了 。 























3.2.2R 中 数据 的 标准 化 























在 这 里 我 们 假设 各 个 自 变量 和 因 变 量 之 间 存 在 线性 的 关系 。 在 正式 开始 线性 回归 分 析 之 前 ， 你 可 能 会 发 现 不 同 字段 的 数据 没有 可 比 性 。 首 先是 取 值 范围 不 同 ， 例 如 ， 前 一 个 月 或 前 一 周 的 转化 率 是 0 到 1 
之 间 的 实数 ， 而 商家 的 信誉 度 却 是 1 到 5 之 间 的 整数 。 其 次 ， 即 使 是 同样 的 取 值 范围 ， 可 能 含金量 也 不 相同 。 例 如 ， 所 有 商品 前 一 个 月 的 转化 率 都 是 偏 低 的 ， 可 能 0.1 已 经 是 很 高 的 ， 而 所 有 商品 前 一 周 的 转化 
率 都 变 得 很 高 ， 那 么 0.1 就 显得 很 低 了 。 因 此 ， 这 里 还 要 对 原始 数据 进行 标准 化 (normalization) 的 预 处 理 ， 让 不 同 的 分 数 相互 之 间 具 有 可 比 性 。 只 有 这 样 ， 回 归 后 不 同 因素 的 系数 或 权重 才 有 可 比 性 。 







































































一 种 常见 的 标准 化 方法 是 z 分 数 (z-score) 。 该 方法 的 主要 内 容 具 体 如 下 。 








“ 假设 数据 呈现 标准 正 态 分 布 。 正 态 分 布 是 连续 随机 变量 概率 分 布 的 一 种 ， 自 然 界 、 人 类 社会 、 心 理 和 教育 中 大 量 现象 均 按 正 态 形式 分 布 ， 例 如 能 力 的 高 低 ， 学 生成 绩 的 好 坏 等 都 属于 正 态 分 布 。 正 态 
分 布 的 特点 是 : 分 布 的 形式 是 对 称 的 ， 对 称 轴 是 经 过 平均 数 点 的 重 线 ; 中 央 点 最 高 ， 然 后 逐渐 向 两 侧 下 降 ， 曲 线 的 形式 是 先 向 内 这 ， 再 向 外 谊 。 曲 线 下 的 面积 为 1。 正 态 分 布 随 变量 的 平均 数 、 标 准 差 的 大 小 
与 单位 不 同 而 有 不 同 的 分 布 形态 。 而 标准 正 态 分 布 是 正 态 分 布 的 一 种 ， 平 均 数 为 0， 标 准 差 为 1 ， 也 就 是 说 平均 数 和 标准 差 都 是 固定 的 。 


“ 试图 回答 这 样 一 个 问题 : 一 个 给 定 分 数 距 离 平均 数 多 少 个 标准 差 ? 在 平均 数 之 上 的 分 数 会 得 到 一 个 正 的 标准 分 数 ， 在 平均 数 之 下 的 分 数 会 得 到 一 个 负 的 标准 分 数 。z 分 数 是 一 种 可 以 看 出 某 分 数 在 分 布 
中 相对 位 置 的 方法 。z 分 数 能 够 真实 地 反映 出 一 个 分 数 距 离 平 均 数 的 相对 标准 距离 。 如 果 我 们 把 每 一 个 分 数 都 转换 成 z 分 数 ， 那 么 每 一 个 z 分 数 都 会 以 标准 差 为 单位 表示 一 个 具体 分 数 到 平均 数 的 距离 或 离 差 。 

















2 分数 计算 的 具体 公式 如 下 : 














Ny 
|| 


LH = Mean 
oO = Standard Deviation 


其 中 x 为 原始 值 ，H 为 均值 ，o 为 标准 差 。 在 R 中 ,我们 可 以 很 轻松 地 实现 这 一 转变 ， 并 生成 若干 对 应 的 数据 列 : 








> listing for prediction$OoneMonthConversionRateInUVNormalized < 一 (listing for PredictionS$OneMonthConversionRateInUV - mean(listing for prediction$OneMonthConversionRateInUV)) / 


> listing for prediction$OneWeekConversionRateInUVNormalized <- (listing for 


prediction$OneWeekConversionRateInUV - mean (1isting for predictionSOneWeekConversion 
RateInUV) ) / sd(listing for prediction$OneWeekConversionRateInUV) 


> listing for prediction$SellerReputationNormalized<- (listing for prediction$ 
SellerReputation - mean(listing for prediction$SellerReputation)) / sd(listing for prediction$SellerReputation) 


> listing for prediction$IsDealNormalized<- (listing for prediction$IsDeal - mean 
(listing for prediction$IsDeal)) / sdl(listing for prediction$IsDeal) 


> listing for prediction$IsNewNormalized<- (listing for prediction$IsNew - mean 
(listing for prediction$IsNew)) / sd(1isting for prediction$IsNew) 


> listing for prediction$IsLimitedSstockNormalized<- (listing for prediction$Is 
LimitedStock - mean (listing for prediction$IsLimitedStock)) / sd(listing for predic 
tion$IsLimitedSstock) 


> listing for prediction$TargetValueNormalized<- (listing for prediction$Target 
Value - mean(listing for prediction$TargetValue)) / sdl(listing for prediction$TargetValue) 





查看 这 些 数据 列 : 





> listing for prediction[c("ID", "OneMonthConversionRateInUVNormalized", "OneWeekConversion 

RateInUVNormalized", "SellerReputationNormalized", "IsDealNormalized", "IsNewNormalized", "IsLimitedStockNormalized", "TargetValueNormalized")] 
ID OneMonthConversionRateInUVNormalized OneWeekConversionRateInUVNormalized SellerReputation 

Normalized IsDealNormalized IsNewNormalized IsLimitedStockNormalized TargetValueNormalized 


1 22785 -1.3400479 -1.23567665 -0.1358754 -0.617342 -0.4638124 -0.4949747 -1.285017776 
2 19436 -1.2899500 二 0.8346633 1.587451 -0.4638124 -0.4949747 -0.351859428 

3 ” 350 -1.0179898 -1.02016731 -0.1358754 -0.617342 2.1129232 -0.4949747 -0.665087405 
4 3787 -1.2470089 -1 .19853398 0.8346633 -0.617342 -0.4638124 -0.4949747 -0.743394399 
5 i671 1.4582790 1.88920870 0.8346633 -0.617342 -0.4638124 -0.4949747 1.475303772 

6 23188 0.4276931 0.32676603 0.8346633 1.587451 -0.4638124 1.9798990 1.135973464 

7 25150 -0.1090703 0.05737936 -0.1358754 -0.617342 2.1129232 1.9798990 -0.006003536 

8 14707 0.4563205 0.31329669 0.8346633 -0.617342 -0.4638124 1.9798990 0.927154812 

9 28657 -0.8891666 -0.82486198 -1.1064141 -0.617342 -0.4638124 -0.4949747 -1.239338696 
10. 6275 -0.1162272 0.01023669 -0.1358754 1.587451 -0.4638124 -0.4949747 -0.404064090 
11 18663 0.7855355 L135L3003 0.8346633 -0.617342 -0.4638124 -0.4949747 0.339852355 

12 15229 -0.7675002 -0.72384198 0.8346633 -0.617342 -0.4638124 -0.4949747 -0.560678079 
13 T1290 0.3775952 0.28635803 -0.1358754 -0.617342 -0.4638124 -0.4949747 -0.025580285 
14 22014 -1.3185774 -1.24914598 -1.1064141 -0.617342 -0.4638124 -0.4949747 -1.435106182 
15 13200 -0.5456380 -0.47465931 -0.1358754 1.587451 -0.4638124 -0.4949747 0.248494195 
16 3440 =-1,.1395562 -1.04037131 -0.1358754 -0.617342 -0.4638124 -0.4949747 -0.795599062 










17 26597 -0.1663251 -0.44772064 -2.0769529 .617342 -0.4638124 -0.4949747 -0.815175810 
18 4955 2.1023952 1.61308737 0.8346633 -0.617342 -0.4638124 -0.4949747 2.434564452 
19 6083 1.1362209 0.85880470 -0.1358754 -0.617342 -0.4638124 -0.4949747 0.502991927 
20 9082 1.1720052 1.31002737 -1.1064141 -0.617342 -0.4638124 1.9798990 1.494880521 
21 171532 0.2129878 0.03044069 0.8346633 -0.617342 -0.4638124 -0.4949747 = 311120108 
22 4826 1.2865147 1.82186204 -0.1358754 -0.617342 -0.4638124 1.9798990 0.640029167 
23 3910 -0.8032844 -0.83159664 0.8346633 -0.617342 —0.4638124 -0.4949747 -0.514998999 
24 24450 0.2487720 -0.10425264 -2.0769529 1.587451 -0.4638124 1.9798990 0.640029167 
25 13428 -0.5671085 -0.47465931 0.8346633 1.587451 -0.4638124 -0.4949747 0.457312847 
26 1140 0.4563205 0.21227669 0.8346633 -0.617342 -0.4638124 -0.4949747 0.333326772 
27 22403 -0.5742654 -0.64976064 -1.1064141 1.587451 -0.4638124 -0.4949747 =0.319231513 
28 5945 0.1986741 0.23248069 -0.1358754 1.587451 -0.4638124 -0.4949747 0.392057018 
29 19020 0.9716135 0.42105136 -0.1358754 -0.617342 -0.4638124 1.9798990 1.377420029 
30 2068 2.6749429 3.14859138 -1.1064141 -0.617342 2.1129232 -0.4949747 3.831039184 

31 21222 -1.3042637 -1.20873798 1.8052020 -0.617342 2.1129232 1.9798990 -0.123464028 
32 10718 1.1433778 0.86553936 0.8346633 -0.617342 -0.4638124 -0.4949747 -0.815175810 
3 -0.2593641 -0.10425264 -0.1358754 -0.617342 -0.4638124 -0.4949747 -0.195245439 
34 2269 -0.9106371 -0.77098464 -2.0769529 .617342 -0.4638124 -0.4949747 -0.9522L3050 
35 18569 0.6710259 0.52207136 -1.1064141 1.587451 -0.4638124 -0.4949747 0.437736098 
36 2998 -0.9678919 -0.82486198 1.8052020 1.587451 -0.4638124 -0.4949747 -0.351859428 
37 21803 =1 ,36L5185 -1.23567665 0.8346633 -0.617342 这 ,129232 -0.4949747 -0.991366548 
38 19303 -0.6673044 -0.63629131 0.8346633 -0.617342 -0.4638124 -0.4949747 -0.521524582 
39 4690 0.8284765 1.08104870 -2.0769529 -0.617342 -0.4638124 -0.4949747 -0.521524582 
40 19971 -1.2613226 -1.21547265 0.8346633 1.587451 -0.4638124 1.9798990 -0.006003536 
41 26946 -0.5814222 -0.45445531 0.8346633 -0.617342 -0.4638124 -0.4949747 -0.397538508 
42 25426 0.8642608 0.79819270 0.8346633 1.587451 -0.4638124 -0.4949747 0.013573212 

43 13999 0.8213197 0.41431670 -0.1358754 1.587451 L129232 1.9798990 0.620452418 

44 9150 -0.1949525 -0.25914997 -1.1064141 -0.617342 2.1129232 -0.4949747 -0.097361696 
45 1227 0.6352417 0.59615270 -0.1358754 -0.617342 2.1129232 -0.4949747 1.018512972 
46 9904 -0.2092662 "2322113L 0.8346633 -0.617342 -0.4638124 -0.4949747 -0.286603599 
47 22857 -1.4330869 -022731 -0.1358754 -0.617342 2z1129232 -0.4949747 -1.089250290 
48 12522 0.5350458 0.24595003 0.8346633 -0.617342 -0.4638124 -0.4949747 -0.965264216 
49 7519 1.3867106 1.60635270 -1.1064141 1.587451 -0.4638124 -0.4949747 0.274596527 
50 1324 0.1915172 -0.10425264 -1.1064141 -0.617342 -0.4638124 -0.4949747 -0.808650228 








可 以 看 到 ， 对 于 给 定 的 某 个 字段 ， 数 值 有 正 有 负 ， 与 原始 数据 有 所 不 同 。 再 来 验证 一 下 每 个 字段 是 否 符合 标准 正 态 分 布 。 这 里 以 OneMonthConversionRatelnUVNormalized 和 
SellerReputationNormalized 为 例 : 





mean (listing for PredictionS$OneMonthConversionRateInUVNormalized) 
1] -7.213929e-17 
sd(1isting_for prediction$OneMonthConversionRateInUVNormalized) 
到 村 
mean (listing for prediction$SellerReputationNormalized) 
-9.990706e-17 


] 
sd(listing for prediction$SellerReputationNormalized) 
] 于 


> 
[ 
> 
[ 
> 
[1 
> 
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1 








这 里 -7.213929e-17 和 -9.990706e-17 是 由 于 计算 误差 所 导致 的 ， 可 以 认为 0， 而 标准 差 都 是 1， 符 合 标准 正 态 分 布 。 





3.2.3 ”使 用 R 的 线性 回归 分 析 














一 切 就 绪 ， 我 们 先 来 使 用 cor () 函数 ， 检 视 一 下 不 同 自 变量 之 间 、 自 变量 和 因 变 量 之 间 的 关系 : 

















> cor (Listing for prediction[c("OneMonthConversionRateInUVNormalized"， "OneWeekConversionRateInUVNormalized", "SellerReputationNormalized", "IsDealNormalized", "IsNewNormalizec 
OneMonthConversionRateInUVNormalized OneWeekConversionRateInUVNormalized SellerReputa- 
tionNormalized IsDealNormalized IsNewNormalized IsLimitedStockNormalized TargetValueNormalized 


OneMonthConversionRateInUVNormalized 1.00000000 0.97348970 -0.158011500 -0.031674657 
-0.06780377 0.13685456 0.746505674 

OneWeekConversionRateInUVNormalized 0.97348970 1.00000000 -0.154650456 -0.045672910 
-0.04367404 0.10789623 0.752750106 

SellerReputationNormalized -0.15801150 -0.15465046 1.000000000 0.001746806 
-0.01326967 0.02941176 "O0027711535 

IsDealNormalized -0.03167466 -0.04567291 0.001746806 1.000000000 
-0.17623215 0.13363062 0.125412525 

IsNewNormalized -0.06780377 -0.04367404 -0.013269666 -0.176232151 
1.00000000 QL5617376 0.131333115 

IsLimitedSstockNormalized 0.13685456 0.10789623 0.029411765 0.133630621 
0.15617376 1.00000000 0.338424764 

TargetValueNormalized 0.74650567 0.75275011 -0.002771155 0.125412525 
:13133312 0.33842476 1.000000000 





从 中 可 以 得 出 如 下 两 个 快速 的 结论 : 


“ 单 月 销售 转化 率 OneMonthConversionRateInUVNormalized 和 单 周 销售 转化 率 OneWeek ConversionRateInUVNormalized 之 间 的 相关 系数 达到 了 0.97348970， 有 极 强 的 相关 性 。 在 必要 的 时 候 ， 我 们 可 以 考虑 
放弃 这 两 者 其 中 之 一 的 自 变量 ， 减 少 自 变 量 的 数量 ， 降 低 对 训练 样本 数量 的 要 求 。 


“ 待 预测 的 目标 转化 率 TargetValueNormalized 和 单 月 销售 转化 率 OneMonthConvetsionRateInUVNormalized 有 较 强 的 相关 性 ， 相 关系 数 为 0.74650567。 


' 待 预测 的 目标 转化 率 TargetValueNormalized 和 单 周 销售 转化 率 OneWeekConversionRateInUVNormalized 也 有 较 强 的 相关 性 ， 相 关系 数 为 0.75275011。 


“ 对 角 线 上 都 是 自己 对 自己 ， 完 全 相关 ， 所 以 系数 都 为 1.0。 














还 可 以 使 用 pairs () 函数 可 视 化 两 两 转化 率 之 间 的 关系 ， 结 果 如 图 3-3 所 示 。 























> pairs(listing for prediction[c("OneMonthConversionRateInUVNormalized"， "OneWeek- 
ConversionRateInUVNormalized", "SellerReputationNormalized", "IsDealNormalized", "IsNewNormalized", "IsLimitedStockNormalized", "TargetValueNormalized")]) 








然后 ， 通 过 Im () 函数 ， 进 行 多 元 的 线性 回归 ， 数 据 集 为 listing for_prediction， 目 标 值 或 因 变 量 是 TargetValueNormalized， 将 其 他 的 标准 化 字段 作为 自 变量 : 











> listing prediction linearreg model <- lm(TargetValueNormalized ~ OneMonth 
ConversionRateInUVNormalized + OneWeekConversionRateInUVNormalized + SellerReputation 
Normalized + IsDealNormalized + IsNewNormalized + IsLimitedSstockNormalized, data = listing for prediction) 
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图 3-3 可视化 两 两 转化 率 之 间 的 关系 


查看 线性 回归 后 的 结果 : 





> listing prediction linearreg model 


Call: 

lm(formula = TargetValueNormalized ~ OneMonthConversionRateInUVNormalized + 
OneWeekConversionRateInUVNormalized + SellerReputationNormalized + 
IsDealNormalized + IsNewNormalized + IsLimitedStockNormalized, 
data = listing for prediction) 


Coefficients: 
(Intercept) OneMonthConversionRateInUVNormalized OneWeekConversion 
RateInUVNormalized SellerReputationNormalized IsDeal-Normalized IsNewNormalized IsLimitedStockNormalized 
6.229e-17 1.996e-01 5.692e-01 1.129e-01 1.607e-01 
1.685e-01 1.986e-01 




















从 目前 的 结果 来 看 ，OneWeekConversionRatelnUVNormalized 这 个 因素 的 权重 最 高 ， 为 5.692e-01。 下 | 


| 
向 
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summary () 函数 查看 模型 的 细节 




















> summary (listing Prediction linearreg model) 


Call; 

lml(formula = TargetValueNormalized ~ OneMonthConversionRateInUVNormalized + 
OneWeekConversionRateInUVNormalized + SellerReputationNormalized + 
IsDealNormalized + IsNewNormalized + IsLimitedStockNormalized, 
data = listing for prediction) 


Residuals: 
Min 10 Median 3Q Max 
-1.35461 -0.25017 0.07358 0.30216 1.47134 


1.0 2.0 


-0.5 


Coefficients: 








据 ， 例 如 最 小 值 (-1.35461) 、25% 分 位 (-0.25017) 、 中 值 (0.07358) 、75% 分 位 
如 ，OneWeekConversionRatelnUVNormalized 虽 然 有 最 高 的 权重 值 ， 但 是 其 对 应 的 


0.05 (5%) 以 内 的 偶然 性 才 是 可 以 接受 的 。 依 照 5% 的 标准 来 看 ， 只 有 IsLimitedStoc 
度 只 有 64%， 离 最 理想 的 值 100% 有 较 大 的 差距 ， 还 不 够 理想 。 


换言之 ,如 果 将 





Estimate Std. Error t value Pr(>|t|) 
(Intercept) 6.229e-17 8.451e-02 0.000 1.0000 
OneMonthConversionRateInUVNormalized 1.996e-01 3.809e-01 0.524 0.6030 
OneWeekConversionRateInUVNormalized 5.692e-01 3.784e-01 1.504 0.1398 
SellerReputationNormalized 1.129e-01 8.664e-02 1.303 0.1994 
IsDealNormalized 1.607e-01 8.821e-02 2 DTS4 < 
IsNewNormalized 1.685e-01 8.933e-02 1.887 0.0660 . 
IsLimitedStockNormalized 1.986e-01 8.963e-02 2.216 0.0321 * 
Sioit,, Codess NM SEH MDOT Mr OO HL D0 
Residual standard error: 0.5976 on 43 degrees of freedom 
Multiple R-squared: 0.6866, Adjusted R-squared: 0.6429 
F-statistic: 15.7 on 6 and 43 DF, p-value: 1.899e-09 
现实 中 ， 由 于 被 线性 回归 的 数据 不 可 能 完全 符合 某 条 直线 ， 因 此 存在 误差 ， 如 前 图 3-1 所 示 : 左 侧 拟 合 度 较 好 ， 误 差 小 ; 右 侧 拟 合 度 较 差 ， 误 差 大 。 上 述 结果 的 Residuals 部 分 展示 了 误差 的 基本 统计 数 
























































那么 ， 这 些 是 否 就 意味 着 线性 回归 无 法 很 好 地 解决 转化 率 预 测 问 题 呢 ?其 实 ， 我 介 

















“ 消费 电子 : 包括 “手机 ”和 “电脑 ”等 分 类 。 


“ 日用品: 包括 “沐浴 露 ”“ 美 发 护 发 ”“ 大 米 ” 和 “食用 油 ” 等 分 类 。 
“ 饮料 和 零食 : 包括 “坚果 ”“ 巧 克 力 ”“ 人 饼干 ” “饮料 饮品 ”和 “方便 面 ” 等 分 类 。 
“ 生 鲜 和 干货 : 包括 “海鲜 水 产 ” “新鲜 水 果 ”“ 进 口 牛奶 ”“ 囊 类 ”和 “茶叶 ”等 分 类 。 


先 来 测试 消费 电子 类 这 组 的 样本 : 


(0.30216) 和 最 大 值 (1.47134) 。Coefficients 给 出 了 每 个 
Pr 值 (也 就 是 P 值 ) 达到 了 0.1398， 表 面 上 这 个 相关 性 从 统计 的 角度 来 看 存在 14% 左 右 的 
Normalized 符 合 条 件 。 同 时 ， 调 整 后 的 R 方 (Adjusted R-squared) 为 0.6429， 表 示 模 型 整体 对 于 


] 还 可 以 根据 商品 的 分 类 进行 一 些 尝试 。 不 同 品类 的 商品 ， 其 内 在 
于 回归 的 样本 限定 于 特定 的 品类 ， 我 们 是 否 能 发 现 其 他 有 趣 的 现象 ”这 里 将 整体 的 测试 数据 划分 为 4 个 大 类 (分 组 ) 。 





























变量 的 部 分 权重 和 统计 细节 。 

















例 


偶然 性 ， 而 一 般 业 界 认为 











因 变 量变 化 的 解释 

















属性 会 有 所 不 同 ， 消 费 者 对 其 的 理解 








也 会 有 所 不 同 。 







































是 ，SellerReputationNormalized 况 然 是 负 系 数 ， 也 就 是 说 商家 的 信誉 越 高 ， 预 测 的 转化 率 


























> listing for prediction ce <- subset (listing for prediction, listing for prediction$CategoryName == "手机 " | listing for prediction$CategoryName == "电脑 ") 
> listing for Prediction ce[,1:4] 
ID Title CategoryID CategoryName 
1 22785 samsung 三 星 galaxy tab3 t211 1g 8g wifi+3g 可 通话 电脑 gps 300 万 像素 白色 a 电脑 
2 19436 samsung 三 alaxy fame s6818 智能 手机 td-scdma gsm 蓝 色 移动 定制 机 14 手机 
14 22014 华 志 硕 第 四 代 酷 守 i3 4130 b85 4g 500g 高 性 能 核 显 家 用 娱乐 高 清 电脑 主机 15 电脑 
27 22403 sony 索尼 p13226scb 13.3 英 寸 触 控 超 极 本 电脑 15 4200u 4g 128g 固态 win8.1 蓝牙 4.0 15 电脑 
31 21222 lenovo 联想 g510at-ifi 酷 害 i5 4200 4g 500g 2g 独立 显卡 笔记 本 电脑 15.6 寸 1 电脑 
37 21803 dell 戴尔 optiplex 7010mt 商用 台式 电脑 主机 i5-3470 4g 500g dvdrw 5 电脑 
38 19303 htc one m8sw e8 时 尚 版 4g 手机 雪 精灵 白 fagq-lte td-lte wcdma gsm 联通 版 14 手机 
40 19971 samsung 三 星 galaxy siv 盖世 4 s4 i9500 双 核 手机 大 陆 行货 全 国 联 保 14 手机 
47 22857 thinkpad t430u-8614-1c4 14 英 寸 15-3337 4g 1t 24ssd win8 超级 本 笔记 本 电脑 1 电脑 
进行 同样 的 z 分 数 标准 化 、 线 性 回归 后 的 结果 如 下 : 
> listing prediction linearreg model ce <- lm(TargetValueNormalized ~ OneMonth 
ConversionRateInUVNormalized + OneWeekConversionRateInUVNormalized + 
SellerReputation-Normalized + IsDealNormalized + IsNewNormalized + IsLimitedStockNormalized, 
data = listing for prediction ce) 
> summary (listing prediction linearreg model ce) 
cal 
lml(formula = TargetValueNormalized ~ OneMonthConversionRateInUVNormalized + 
OneWeekConversionRateInUVNormalized + SellerReputationNormalized + 
IsDealNormalized + IsNewNormalized + IsLimitedStockNormalized, 
data = listing for prediction ce) 
Residuals: 
1 2 14 和 ST 37 38 40 47 
0.01927 0.06719 0.02765 0.03496 0.10215 -0.05980 -0.04693 -0.10215 -0.04235 
Coefficients: 
Estimate Std. Error 七 value Pr(>|t|) 
(Intercept) -1.867e-15 4.429e-02 0.000 1.0000 
OneMonthConversionRateInUVNormalized -1.471e+01 7.972e+00 -1.846 0.2063 
OneWeekConversionRateInUVNormalized 1.507e+t01 7.921e+00 Le V1978 
SellerReputationNormalized -1.491e+00 1.006e+00 -1.483 0.2763 
IsDealNormalized 1.221le+00 3.550e-01 3.439 0.0751 . 
IsNewNormalized 5.554e-01 2.145e-01 2 590. OT223 
IsLimitedSstockNormalized 1.796e+00 7.535e-01 2.383 0.1400 
Sanit,, Godless Wtws%! HYDOL TR 
Residual standard error: 0.1329 on 2 degrees of freedom 
Multiple R-squared: 0.9956, Adjusted R-squared: 0.9823 
F-statistic: 75.18 on 6 and 2 DF, p-value: 0.01318 
从 中 可 以 看 到 ， 只 有 lsDealNormalized 有 比较 小 的 偶然 性 〈P 值 ) ， 并 且 拥 有 较 高 的 正 系数 ， 证 明 对 于 此 类 商品 ， 是 否 参加 促销 将 对 用 户 是 否决 定购 买 起 到 比较 关键 的 作用 。 令 人 意外 的 





能 结论 就 会 发 生 改 变 。 从 整体 上 看 ， 调 整 后 的 R 方 (Adjusted R-squared) 达到 了 98%， 解 释 性 很 好 。 




















反而 越 低 ， 这 和 我 们 的 常识 不 符 。 好 在 : 
































P 值 较 大 ， 证 明 该 系数 可 信 度 并 不 高 ， 如 果 使 

















了 更 多 的 测试 数据 ， 可 








接 下 来 是 日 用 品 分 类 这 组 : 
> listing for prediction daily <- subset (listing for prediction, listing for prediction$ 
CategoryName == "沐浴 露 " | listing for prediction$CategoryName 一 "美发 护 发 "| 


listing for prediction$CategoryName == "大 米 " | listing for prediction$CategoryName == "食用 油 ") 
> listing for prediction daily[, 1:4] 
ID Title CategoryID CategoryName 














5 11671 rongs 融 氏 纯 玉米 胚芽 油 51 绿色 食品 非 转基因 送 300ml 小 油 1 瓶 9 食用 油 

6 23188 kerastase 卡 诗 男士 系列 去 头 悄 洗 发 水 250ml 去 悄 止 痒 男士 专用 进口 专业 洗 护 发 16 美发 护 发 
7 25150 dove 多 芬 丰 蛋 宠 肤 沐浴 系列 乳 木 果 和 香草 沐浴 乳 400ml 5 瓶 17 沐浴 露 

11 18663 十 月 稻田 五 常 稻 花香 大 米 5kg 袋 x 2 12 大 米 

17 26597 油 冰 透 清爽 沐浴 露 200ml 17 沐浴 露 

21 17532 金龙 鱼 稻 5kg 袋 1 米 

24 24450 套装 洗 发 水 洗 发 露 护 发 素 沐浴 盐 沐浴 乳 身体 乳 专业 洗 护 套装 16 美发 护 发 
29 19020 金龙 鱼 4 运 大 米 

35 18569 golden delight 茉莉 香 米 5kg 泰国 进口 12 大 米 

42 25426 safeguard 舒 肤 佳 热 销 组 合 纯 白 清 香 型 劲 爽 清新 运动 型 400ml 2 17 沐浴 露 

48 12522 蒙 谷 香 亚麻 籽 油 冷 榨 脱 蜡 礼品 盒 500ml 2 瓶 送 领导 送 健康 首选 送礼 首选 9 食用 油 





Zz 分 数 标准 化 、 线 性 回归 后 的 结果 如 下 : 








> listing prediction linearreg model daily <- lm(TargetValueNormalized ~ 
OneMonthConversionRateInUVNormalized + OneWeekConversionRateInUVNormalized + Seller 


ReputationNormalized + IsDealNormalized + IsNewNormalized + IsLimitedStockNormalized, 
data = listing for prediction daily) 
> summary (listing prediction linearreg model daily) 


als 

lm(formula TargetValueNormalized ~ OneMonthConversionRateInUVNormalized + 
OneWeekConversionRateInUVNormalized + SellerReputationNormalized + 
IsDealNormalized + IsNewNormalized + IsLimitedStockNormalized, 



























































data = listing for prediction daily) 
Residuals: 

5 6 和 11 47 2 

24 29 35 42 48 

-1.495e-02 3.101e-01 -3.903e-18 -5.792e-02 2.557e-01 -1.558e-01 

-4.472e-01 1.371e-01 2.187e-01 -8.162e-02 -1.642e-01 
Coefficients: 

Estimate Std. Error 七 value Pr(>|t|) 
(Intercept) -1.792e-16 1.055e-01 0.000 1.0000 
OneMonthConversionRateInUVNormalized 1.329e-01 3.597e-01 0.369 "07305 
OneWeekConversionRateInUVNormalized 8.605e-01 3.483e-01 2.470 0.0689 . 
SellerReputationNormalized -3.474e-01 1.395e-01 -2.490 0.0675 . 
IsDealNormalized 6.585e-02 1.247e-01 05528 “0:6255 
IsNewNormalized -1.654e-01 1.85le-01 -0.893 0.4222 
IsLimitedSstockNormalized 7.790e-01 1.535e-01 SUTG -HO 
Sloqrdt Gost “0 SOM D0 P00 Sr 0 
Residual standard error: 0.3499 on 4 degrees of freedom 
Multiple R-squared: 0.951, Adjusted R-squared: 0.8776 
F-statistic: 12.95 on 6 and 4 DF, p-value: 0.01346 
从 结果 来 看 ，IsLimitedStockNormalized 的 P 值 非常 小 ， 是 最 为 可 靠 的 因素 ， 而 系数 为 正 ， 这 表明 对 于 刚性 需求 的 商品 而 言 ， 如 果 它 们 的 库存 有 限 ， 那 么 其 销售 转化 率 会 更 高 。 原 因 可 能 是 顾客 担心 自 
经 常 使 用 的 日 用 品 缺 货 。 其 次 ，OneWeekConversionRatelnUVNormalized 的 P 值 也 较 低 ， 说 明 前 一 周 的 转化 对 于 之 后 的 转化 预测 有 比较 可 靠 的 贡献 。 而 对 于 商家 的 信誉 度 














SellerReputationNormalized 依 然 是 比较 反常 的 负 系 数 。 从 整体 上 看 ， 调 整 后 的 R 方 (Adjusted R-squared) 


下 一 个 大 的 分 类 组 是 饮料 和 零食 : 








达到 了 87%， 解 释 性 比较 好 。 





> listing for prediction drink.snack <- subset (listing for prediction, 

listing for prediction$CategoryName "坚果 " | listing for prediction$CategoryName 
listing for prediction$CategoryName == "饼干 " | listing for prediction$CategoryName 
listing for prediction$CategoryName == "方便 面 ") 

> listing for prediction drink.snack[, 1:4] 

ID Title CategoryID CategoryName 

6275 德 甘 兄弟 品牌 脆 香 米 脆 米 心 牛奶 巧克力 500g 散 
1290 雅 客 花生 口味 法 式 薄饼 夹心 饼干 500g 小 包装 零食 
6083 德 关 士 力 架 花生 巧克力 桶 装 460 克 全 家 桶 装 6 
9082 圣 玖 涛 san benedetto 天 然 矿泉 水 500ml 瓶 意大利 
健康 更 纯净 3 饮料 饮品 

aji 芒 果 味 夹心 饼干 270g 休闲 零食 二 饼干 

hershey s 好 时 巧克力 kisses 结婚 喜糖 1 斤 500g 散装 称 重 
牛奶 黑 巧 扁 桃仁 析 仁 曲 奇 6 巧克力 

康师傅 脆 海带 香 锅 牛肉 面 121 5 袋 2 方便 面 
大 徐 南瓜 子 独立 小 包 散 称 5909 盐 烛 味 南瓜 子 休闲 零食 小 南瓜 子 
寿桃 牌 儿童 萝卜 面 2 方便 面 

海 太 冰 斗 哩 儿童 饮料 蓝 粉色 各 2 涛 280ml 韩国 进口 儿童 果汁 棉花 糖 味 正 
meilijia bakery cake 美丽 家 食品 饼干 礼包 煎饼 礼盒 精 挑 细 选 大 礼包 650g 
正 林 黑 瓜子 甘草 味 315g 8 坚果 

怡 泉 c 柠檬 味 汽水 500ml 支 7 饮料 饮品 

嘿 依 喜 食品 黄油 蜂蜜 杏仁 酥 250g 独立 小 包装 饼干 
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对 该 大 类 进行 7 分 数 标准 化 和 线性 回归 ， 之 后 的 结果 如 下 : 








> listing prediction linearreg model drink.snack <- lm(TargetValueNormalized ~ OneMonthConversionRateInUVNormalized + OneWeekConversionRateInUVNormalized + Seller 


ReputationNormalized + IsDealNormalized + IsNewNormalized + 
IsLimitedSstockNormalized, data listing for prediction drink.snack) 
> summary (listing prediction linearreg model drink.snack) 


Sally 

lm(formula TargetValueNormalized ~ OneMonthConversionRateInUVNormalized + 
OneWeekConversionRateInUVNormalized + SellerReputationNormalized + 
IsDealNormalized + IsNewNormalized + IsLimitedStockNormalized, 


data = listing for prediction drink.snack) 
Residuals: 
Min 19 Median 3Q Max 


-0.82870 -0.10268 -0.00554 0.19772 0.54805 


Coefficients: 

Estimate Std. Error 七 value Pr(>|t|) 
(Intercept) 5.447e-16 1.315e-01 0.000 1.0000 
OneMonthConversionRateInUVNormalized -1.228e+00 9.020e-01 -1.361 0.2157 
OneWeekConversionRateInUVNormalized 1.94le+00 9.309e-01 00 00455 
SellerReputationNormalized 1.470e-01 1.708e-01 0.861 0.4179 
IsDealNormalized -le0l* I.75680D1 ,=0.704 . 0,5039 
IsNewNormalized 2.834e-01 1.772e-01 L599 “O01938 
IsLimitedStockNormalized 1.442e-01 1.587e-01 0 908 03939 
Soir Pa: . Y. Meewe 00 Pee OOD dd 


Residual standard error: 0.4921 on 7 degrees of freedom 
Multiple R-squared: 0.8696, Adjusted R-squared: 0.7578 
F-statistic: 7.779 on 6 and 7 DF, p-value: 0.00801 





从 中 可 以 看 出 ， 依 旧 是 OneWeekConversionRatelnUVNormalized 的 P 值 较 低 ， 说 明 前 一 周 的 转化 率 对 了 


























更 高 。 从 整体 上 看 ， 调 整 后 的 R 方 (Adjusted R-squared) 只 有 76% 左 右 ， 解 释 性 一 般 。 


最 后 一 组 是 生 鲜 和 干货 : 





之 后 的 转化 预测 仍然 有 着 比较 可 靠 的 贡献 ， 不 过 相对 了 
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素 在 本 大 类 中 的 权 





> listing for prediction fresh.dried <- subset (listing for Predictiony 

listing for prediction$CategoryName 海鲜 水 产 " | listing for prediction$CategoryName 
listing for prediction$CategoryName 进口 牛奶 "| listing for prediction$CategoryName 
listing for prediction$CategoryName 茶叶 ") 


















































> listing for Prediction fresh.dried[, 1:4] 
ID Title CategoryID CategoryName 
3 ”3590 金本位 美味 章 鱼 丸 250g 3 海鲜 水 产 
4 ”3787 莲花 居 预 售 阳澄湖 大 间 角 实物 558 型 公 3.3-3.6 两 母 2.3-2.6 两 5 对 装 3 海鲜 水 产 
8 14707 魏 小 宏 weixiaohong 长 寿 更 400 克 袋 美容 养颜 安徽 宣 城 水 东 特产 10 
9 28657 80 茶 客 特级 平 阴 政 讽 花 玫瑰 茶 花草 茶 花茶 女人 茶 冲 饮 50 克 袋 18 茶叶 
12 15229 民 信 南汇 8424 西瓜 4 只 装 中 约 26F 11 新 鲜 水 果 
15 13200 东 阿 阿胶 金 丝 更 S00 独立 包装 10 囊 类 
16 3440 宅 鲜 配 味 付 八 不 芝麻 寿司 料理 材料 必 备 1000g 盒 3 海鲜 水 产 
18 4955 EE 和 欧洲 纯正 奶 源 欧式 香 浓 牛奶 楼 子 味 230g 瓶 新 品 上 市 4 进口 牛奶 
22 4826 波 顿 美 装 进口 牛奶 borden 脱脂 牛奶 946ml 单 盒 装 11 月 到 期 4 进口 牛奶 
23 3910 水 锦 洋 加 拿 大 可 有 虾 刺 身 级 20-24 头 盒 1000g 进 口 虾 项 级 刺身 日 料 好 海鲜 3 海鲜 水 产 
25 13428 绿 帝 金 丝 更 500g 2 袋 河北 沧州 特产 一 级 无 核 红枣 阿胶 枣 金 丝 小 束 蜜枣 仙 刺 10 更 
33 15577 都 乐 新 西 兰 佳 沛 金 奇异 果 猕猴 桃 大 箱 装 有 次 11 新 鲜 水 果 
36 2998 光明 渔业 新 西 兰 青 口 贝 1000g 进口 海鲜 半 过 新 鲜 超大 海鲜 美食 肉质 鲜 滑 原装 进口 3 海鲜 水 产 
39 4690 宾 格 瑞 韩国 进口 binggrae 宾 格 瑞 香蕉 牛奶 饮料 200ml 6 瓶装 1200ml 果汁 牛奶 饮品 4 进口 牛奶 
41 26946 杭 梅 花草 茶 金银花 特级 金 银 花茶 河南 封 丘 35g 负 新 花 18 茶叶 
43 13999 铁 大 哥 无 核 蜜 钱 阿胶 更 280g 3 10 志 半 








对 该 大 类 进行 z 分 数 标准 化 和 线性 回归 ， 之 后 的 结果 如 下 : 








> listing Prediction linearreg model fresh.dried <- lm(TargetValueNormalized ~ 
OneMonthConversionRateInUVNormalized + OneWeekConversionRateInUVNormalized + 
SellerReputationNormalized + IsDealNormalized + IsNewNormalized + IsSLimitedStock 
Normalized, data = listing for prediction fresh.dried) 

> summary (listing prediction linearreg model fresh.dried) 


Call: 


lm(formula = TargetValueNormalized ~ OneMonthConversionRateInUVNormalized + 
OneWeekConversionRateInUVNormalized + SellerReputationNormalized + 
IsDealNormalized + IsNewNormalized + IsLimitedStockNormalized, 
data = listing for prediction fresh.dried) 


Residuals: 

Min 10 Median 
-0.49216 -0.24227 0.03231 
Coefficients: 

(Intercept) 


OneMonthConversionRateInUVNormalized 1.61l9et+00 
OneWeekConversionRateInUVNormalized -7.188e-01 


SellerReputationNormalized 
IsDealNormalized 


IsNewNormalized 


IsLimitedSstockNormalized 


3Q Max 
0.22336 0.48001 


Estimate Std. Error 七 value Pr(>|t|) 


( 

1.854e-16 9.802e-02 0.000 1.0000 

5.090e-01 TO 人 TS * 

5.431le-01 -1.323 0.2183 
3.490e-01 1.240e-01 2.815 0.0202 才 
1.550e-01 1.081le-01 1.434 0.1854 
-6.841le-02 1.345e-01 -0.509 0.6232 
=-3.699e-02 1.368e-01 -0.270 0.7929 


过 Se 


Residual standard error: 0.3921 on 9 degrees of freedom 


Multiple R-squared: 


0.9078, Adjusted R-squared: 0.8463 


F-statistic: 14.76 on 6 and 9 DF, p-value: 0.0003359 


终于 ， 这 次 SellerReputationNormalized 的 系数 为 正 了 ， 而 且 P 值 降 到 了 很 低 的 范 | 
































蛋 ， 说 明 偶 然 性 很 小 。 这 也 许 是 因为 对 于 生 鲜 和 干货 类 商品 而 言 ， 售 前 咨询 、 售 中 运输 和 售后 保障 等 的 因素 更 为 关 






































键 ， 因 此 商家 的 良好 





碑 尤 为 重 
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解释 性 尚 可 。 

















。 而 OneMonthConversionRatelnUVNormalized 的 系数 和 P 值 表明 ， 销 售 的 历史 也 起 到 了 较 大 的 作用 。 从 整体 上 看 ， 调 整 后 的 R 方 (Adjusted R-squared) 达到 84% 左 














“小 明 哥 ， 看 来 线性 回归 分 析 在 不 同 的 数据 集 上 ， 会 产生 完全 不 同 的 结论 啊 ! 你 看 ， 将 原本 的 数据 集 进行 回归 后 ， 我 们 几乎 没有 什么 结论 。 可 是 ， 将 数 











居 集 合 细 分 成 几 个 不 同 的 组 ， 就 会 有 新 的 发 现 。 


“是 的 ， 现 实 中 也 的 确 如 此 。 人 们 在 购买 电子 产品 时 所 考虑 的 因素 与 购买 日 常 快 消 品 时 所 考虑 的 因素 肯定 是 有 所 不 同 的 ， 如 果 混 为 一 谈 ， 当 然 无 法 找到 有 趣 的 结论 。 所 以 ， 我 们 不 仅 要 学 会 算法 本 身 ， 





























还 需要 根据 实际 的 应 


环境 合理 使 






































库 来 协助 线 上 服务 。 我 们 还 可 以 使 





线性 回归 学 习 而 来 的 系数 ， 提 升 搜索 或 推荐 系统 的 排序 准确 率 。 


第 二 篇 “为 顾客 发 现 喜 欢 的 商品 : 基础 篇 


“ 第 4 章 “方案 设计 和 技术 选 型 : 搜索 


。 最 后 ， 由 于 线性 回归 基本 上 都 是 用 于 离线 分 析 的， 模型 处 理 速度 快 ， 而 且 学 习 出 来 的 系数 用 于 实时 运算 也 是 非常 高 效 的 ， 





因此 不 再 需要 Mahout 或 其 他 类 似 的 Java 类 


大 宝根 据 小 明 的 建议 ， 实 现 了 在 线 的 商品 自动 分 类 、 商 品 标题 关键 词 SEO ， 以 及 销售 转化 率 预测 等 运营 辅助 工具 ， 受 到 了 商家 们 的 一 致 好 评 。 运 营 的 效率 提升 后 ， 随 之 而 来 的 就 是 大 量 的 新 商品 涌 入 平 
人 台 ， 顾 客 的 访问 量 也 在 不 断 上 涨 。 然 而 ， 随 着 商品 和 订单 量 的 日 益 增 多 ， 人 们 的 抱 她 也 开始 不 断 增 多 。 看 着 客服 部 的 数据 反馈 ， 团 队 又 开始 寻找 问题 的 根源 ， 于 是 指派 负责 运营 的 小 丽 进行 大 规模 的 客户 和 
市 场 调研 。 这 天 她 找到 了 大 宝 。 


“ 嗨 ， 大 宝 ， 有 件 紧 急 的 事情 需要 和 你 讨论 一 下 。” 


“小 丽 ， 请 坐 。” 


“ 嗯 ， 是 这 样 的 。 我 们 这 两 周一 直 在 做 用 户 访谈 ， 看 看 他 们 的 痛 点 在 哪里 ， 为 什么 要 抱怨 我 们 的 站 点 。 根 据 最 新 的 统计 结果 ,排名 前 几 位 的 问题 都 是 和 技术 系统 相关 的 。” 


“ 哦 ， 是 吗 ? 什么 问题 ?我 想 马 上 了 解 。” 


“今天 先 聊 最 重要 的 那个 问题 。 现 在 用 户 访问 周边 社区 的 商品 ， 主 要 还 是 通过 类 目 逐 级 浏览 的 。 但 是 ， 现 在 介入 的 商户 越 来 越 多 ， 顾 客 们 都 反馈 逐个 查看 类 目的 方式 太 麻烦 ， 但 又 而 没有 办 法 直接 输入 
关键 词 来 查找 商品 。 确 切 地 说 ， 我 们 缺 一 个 站 内 的 搜索 功能 。 举 个 例子 ， 当 一 个 顾客 输入 关键 词 “牛奶 ”， 那 么 与 之 相关 的 商品 和 商铺 都 要 展示 出 来 ， 包 括 社区 门口 售卖 鲜 奶 的 铺子 、 超 市 里 的 各 式 牛 奶 ， 
甚至 是 名 为 “牛奶 佳人 ”的 美容 店 。 当 然 ， 我 们 需要 将 更 相关 的 结果 放 在 更 靠 前 的 位 置 ， 然 后 让 用 户 选 择 他 /她 所 想 要 的 。 你 看 ， 各 大 电 商 网 站 ， 搜 索 功 能 都 放 在 极其 重要 的 战略 位 置 上 。 比 如 某 家 电 商 网 站 


的 搜索 结果 页 就 是 如 此 。 左 侧 有 分 类 选择 ， 上 面 还 有 用 于 导购 的 得 选项， 包括 品牌 、 功 效 、 是 否 进 口 等 。 还 有 好 多 排序 选项 ， 包 括 综合 、 


“好 的 ， 这 确实 是 一 个 很 明显 的 问题 ， 我 也 完全 明白 搜索 系统 对 于 公司 的 价值 。 这 样 吧 ， 我们 团队 立即 安排 设计 和 开发 。 小 丽 ， 谢 谢 你 的 及 时 反馈 ! 


销量 、 价 格 等 。 
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第 4 章 ”方案 设计 和 技术 选 型 : 搜索 











送 走 了 小 丽 ， 大 宝 立即 找到 了 小 明 ， 策 划 如 何 搭建 全 公司 的 第 一 个 搜索 引擎 。 大 宝 提议 使 用 数据 库 的 SQL 来 实现 。 当 然 小 明 有 着 自己 的 观点 : “数据 库 的 SQL 语句 中 确实 有 like 这 种 语法 可 以 在 一 定 程度 
上 支持 关键 词 的 搜索 ， 不 过 SQL 仍 有 很 多 局 限 性 。 为 了 更 好 地 理解 其 原因 ， 我 们 先 来 了 解 一 下 搜索 引擎 相关 的 一 些 背景 知识 。 














4.1 ”搜索 引擎 的 基本 概念 


我 们 日 常 使 用 的 搜索 引擎 源 自 现 代 信 息 检索 系统 。 学 术 界 对 现代 信息 检索 的 定义 一 般 是 : 


从 大 规模 非 结构 化 数据 的 集合 中 找 出 满足 用 户 信息 需求 的 资料 的 过 程 。 











这 里 的 “ 非 结 构 化 ”其 实 是 针对 经 典 的 数据 库 而 言 的 。 数 据 库 里 的 记录 都 有 严格 的 字段 定义 (Schema) ， 是 “结构 化 ”数据 的 典型 代表 。 例 如 每 道 菜 都 有 名 字 ， 想 要 吃 鱼 时 ， 查 询 “ 水 者 鱼 ”就 非常 
高 效 。 相 反 ，“ 非 结构 化 ”没有 这 种 严格 的 定义 ， 计 算 机 世界 存储 的 大 量 文本 就 是 一 个 典型 的 代表 。 一 篇 文章 如 果 没 有 进行 特殊 处 理 ， 对 于 其 描述 的 菜 叫 什么 名 字 、 需 要 准备 哪些 食材 等 信息 ， 我 们 是 一 无 
所 知 的 。 自 然 ， 我 们 也 就 无 法 将 其 中 的 内 容 和 已 经 定义 好 的 数据 库 字 段 进行 匹配 ， 这 也 是 数据 库 在 处 理 非 结构 化 数据 时 非常 乏力 的 原因 之 一 。 此 时 ， 信 息 检 索 的 技术 可 以 极 大 地 帮助 我 们 。 




















非 结构 化 数据 的 特性 是 没有 严格 的 数据 格式 定义 ， 这 点 决定 了 信息 检索 的 如 下 两 个 核心 要 素 。 
: 相关 性 : 用 户 查 询 和 返回 结果 之 间 是 否 有 足够 的 相关 性 。 缺 乏 了 严格 的 定义 ， 自 然 语言 所 表达 的 含义 是 相当 丰富 的 ， 如 何 让 计算 机 更 好 地 “理解 ”人 类 的 信息 需求 是 关键 。 


“ 及 时 性 : 用 户 输入 查询 后 多 久 能 够 获得 返回 的 结果 。 要 解决 相关 性 ， 就 要 设计 合理 的 模型 ， 那 么 模型 的 复杂 度 可 能 会 提升 ， 相 应 的 计算 量 也 会 变 大 ， 因 此 需要 高 效率 的 系统 实现 。 
4.1.1 相关 性 


相关 性 是 一 个 永恒 的 话题 。“ 这 篇 文章 是 否 和 美食 相关 ? ” 当 被 问 及 这 个 问题 时 ， 我 们 要 大 致 看 一 下 文章 的 内 容 ， 才 能 做 出 正确 的 判断 。 可 是 ， 至 今 为 止 计算 机 还 无 法 真正 理解 人 类 的 语言 ， 它 们 该 如 
何 判 定 呢 ? 好 在 科学 家 们 设计 了 很 多 模型 ， 可 以 帮助 计算 机 处 理 基于 文本 的 相关 性 [1]。 


1. 布 尔 模型 (Boolean Model) 














假设 我 非常 喜欢 吃 川 菜 中 的 水 考 鱼 ， 其 香 辣 的 味道 令 人 难忘 。 那 么 ， 如 果 我 想 看 一 篇 介绍 川菜 文化 的 文章 ， 最 简单 的 方法 莫 过 于 看 看 其 中 是 否 提 到 关键 词 “ 水 煮 鱼 ”了 。 如 果 有 (返回 值 为 真 ) ， 那 么 
我 认为 就 是 相关 的 ; 如 果 没有 (返回 值 为 假 ) ， 那 么 我 就 认为 其 不 相关 。 这 就 是 最 基本 的 布尔 模型 。 如 果 将 本 次 查询 转换 为 布尔 表达 式 也 很 简单 ， 就 一 个 条 件 : 











， 你 会 觉得 ， 中 华 饮食 源远流长 ， 川 菜 经 典 怎么 会 


水 者 鱼 OR 粉 蒸 排 骨 


哈哈 ， 这 下 ， 不 仅仅 是 水 者 鱼 ， 谈 到 “ 粉 蒸 排骨 ”的 文章 也 会 认定 为 其 


(水 卉 鱼 OR 粉 蒸 排 骨 ) AND 上 海 








与 








只 有 水 煮 鱼 呢 ? 没 错 ， 我 还 非常 喜爱 粉 燕 排骨 ， 














这 里 ，“ 上 海 ” 是 必要 条 件 ， 而 水 者 鱼 或 粉 燕 排骨 ， 有 一 样 就 可 以 啦 。 最 


表达 式 ， 就 能 理解 信息 检索 中 的 布尔 模型 。 近 些 生 

















设 就 是 : 不 同 的 搜索 关键 词 ， 如 果 它 们 出 现 的 位 置 越 近 ,局 


总 体 上 来 看 ， 布 尔 模型 的 优点 是 简 生 














它 是 小 时 候 着 年 

















F 过 节 的 必 备 菜肴。 那么 ， 将 条 件 修改 一 下 : 


菜 文化 相关 。 如 果 想 看 看 在 上 海 哪 家 店 可 以 吃 到 这 些 美食 呢 》 再 修改 下 : 


于 ， 我 们 可 以 看 看 哪些 文章 提 到 了 上 海 的 餐馆 经 营 川菜 ， 而 且 至 少 提供 水 煮 鱼 和 粉 蒸 排骨 两 味 佳肴 中 的 一 道 。 只 要 理解 了 布尔 


























FE， 除了 基本 的 AND、OR 和 NOT 操 作 ， 布 尔 模型 还 有 所 扩展 。 其 中 ， 最 常见 的 是 邻近 操作 符 (Proximity) ， 用 于 确保 关键 词 出 现在 一 定 的 范围 
了 么 命中 结果 的 相关 性 就 越 高 。 








些 则 不 尽 然 。 仅 仅 通 过 “ 真 ” 和 “ 假 ”2 个 值 来 表示 ， 过 于 绝对 ， 也 没有 办 法 体现 其 中 的 区 别 。 那 么 ， 有 没有 更 好 的 


2. 基 于 排序 的 布尔 模型 (Ranked Boolean Model) 


为 了 增强 布尔 模型 ， 需 要 考虑 如 何 为 














里 介绍 使 











最 为 普遍 的 tf-idf 机 制 |。 











假设 我 们 有 一 个 文档 集合 (Collection) ，c 表 示 整 个 集合 ，d 表 示 其 
的 次 数 。 一 般 的 假设 是 ， 某 个 词 在 文章 中 的 tf 越 高 ， 表 示 该 词 t 才 于 该 文档 d 而 言 越 寻 





同时 ， 


个 词 t 在 文档 集合 c 中 ,1 








外 一 个 常 























并 不 代表 什么 
者 鱼 的 相关 性 就 远 远 高 于 其 他 文章 。 























现在 越 多 的 文档 中 ， 那 么 其 重要 性 就 越 低 ， 
体 的 含义 。 再 举 个 例子 ， 在 讨论 美食 的 文档 集合 中 ，“ 美 食 ”可 能 会 出 现在 上 万 篇 文章 中 ， 
“水 者 鱼 ” 这 个 词 在 文档 集合 中 就 应 该 拥有 更 高 的 权重 。 对 此 ， 通 党 





易 懂 ， 系 统 实 现 的 成 本 也 较 低 。 不 过 ， 它 的 弱点 是 对 相关 性 刻画 不 足 。 相 关 与 否 是 个 模糊 的 概念 ， 有 的 文章 和 查询 条 件 关 系 密切 ， 非 常 符 


解决 方案 呢 ? 























内 。 其 假 




















路 

















户 的 信息 需求 ， 而 有 











匹配 上 的 文档 来 打分 。 相 关 性 越 高 的 文档 其 获得 的 分 数 就 越 高 。 第 一 个 最 直观 的 想法 就 是 : 每 个 词 在 不 同文 档 里 的 权重 是 不 一 样 的 ， 可 以 通过 这 个 来 计算 得 分 。 这 


























中 一 篇 文 


，t 表 示 






























































示 如 下 





也 就 是 说 ， 一 个 和 


排序 布尔 模型 是 一 种 基于 


则 越 高 。 刚 














要 。 当 然 ， 篇 幅 更 长 的 文档 可 能 拥有 更 高 的 tf 值 ， 我 们 会 在 后 





























df 的 

















个 单词 。 那 么 这 里 tf 表示 词 频 (Term Frequency) ， 就 是 一 个 词 t 在 文章 d 中 (或 是 文章 的 某 个 字段 中 ) 出 现 














特殊 。 相 
比例 指标 idf 来 表示 其 重要 性 ， 基 本 公式 如 下 : 





面 Lucene 的 介绍 中 讨论 如 何 计算 可 以 使 得 tf 更 合理 。 





的 是 idf， 它 表示 疼 文 档 频率 (Inverse Document Frequency) 。 首 先 ，df 表 示 文 档 频率 (Document Frequency) ， 即 文档 集合 c 中 出 现 某 个 词 t 的 文档 数量 。 一 般 的 假设 是 ， 某 
始 可 能 会 感觉 有 点 困惑 ， 但 是 仔细 想 想 这 并 不 难 理解 。 好 比 “ 的 、 你 、 我 、 他 、 是 ” 
但 它 并 不 能 使 得 某 篇 文档 


这 种 词 经 常会 出 现 文档 中 ， 但 是 
， 如 果 只 有 3 篇 文章 讨论 到 水 者 鱼 ， 那 么 这 3 篇 文章 和 水 

















idf = og 




















tf-idf=tfxidf 
































和 a 词 t， 如 果 它 在 文档 d 中 的 词 频 tf 越 高 


3. 向 量 空间 模型 (Vector Space Model) 





























统计 其 中 的 单词 ， 假 设 去 重 
(四 川 =1.84， 水 都 鱼 =6.30， 专 辑 =6.80，……… ) 
当然 ， 在 系统 实现 的 时 候 ， 不 会 直接 用 单词 来 代 来 表 纬度 ， 而 是 


大 大 简化 很 多 模型 中 的 计算 复杂 度 ， 同 


Cosine : Sim(d,g) = 

















其 图 形 化 解释 如 图 4-1 所 示 。 














时 又 保证 了 相当 的 准确 性 ， 我 人 
为 一 组 向 量 ， 只 是 和 文档 向 量 相 比 较 ， 查 询 向 量 的 维度 会 非常 低 。 最 后 
是 一 个 介 于 0 和 1 之 间 的 数 ， 如 果 向 量 一 致 就 是 1， 如 果 正 交 就 是 0， 这 也 


























其 中 N 是 整个 文档 集合 中 文章 的 数量 ，log 是 为 了 确保 idf 分 值 不 要 远 远 高 于 tf 而 埋没 tf 的 贡献 ， 默 认 取 10 为 底 。 所 以 单词 t 的 df 越 低 ， 其 idf 就 越 高 ，t 的 重要 性 就 越 高 。 那 么 综合 起 来 ，tf-idf 的 




















权 求 和 的 打分 机 制 ， 下 面 将 介绍 一 个 比 排序 布尔 模型 稍微 复杂 一 点 的 向 量 空间 模型 。 


， 且 在 整个 集合 中 的 idf 也 很 高 ， 那 么 t 对 于 d 而 言 就 越 重要 。 























后 一 共有 50 个 不 同 (Unique) 的 词 ， 那 么 该 文档 的 向 量 就 是 50 个 纬度 ， 其 中 每 个 纬度 是 其 对 应 




















体 的 计 : 


























本 公式 表 





此 模型 的 重点 ， 就 是 将 某 个 文档 转换 为 一 个 向 量 。 还 是 以 上 面 的 文章 为 例 。 














后 ， 相 关 性 问题 就 转化 为 计算 查询 向 量 和 文档 向 量 之 间 的 相似 度 了 。 在 实际 处 理 中 ， 最 常 


符合 相似 度 百 分 比 的 特性 ， 公式 如 下 : 





词 的 tf-idf 值 ， 看 上 去 就 像 这 样 : 


词 的 ID。 如 此 一 来 ， 一 个 文档 集合 就 会 转换 为 一 组 向 量 ， 每 个 向 量 代表 一 篇 文档 。 这 种 表示 忽略 了 单词 在 文章 中 出 现 的 顺序 ， 可 以 
] 通 常 也 称 这 种 处 理 方式 为 词 包 (Bag Of Word) ， 这 点 在 第 一 篇 的 文本 分 类 和 聚 类 中 已 经 有 所 提 及 。 同 理 ， 























户 输入 的 查询 也 能 转换 























的 相似 性 度量 方式 是 余弦 距离 。 因 为 它 正好 











(a xb, +a, xb, +**+a, xb,) 


(a xa t+ xa, )x(b xb+:…+Db, xb, ) 


关键 词 N 







文档 向 量 = { 四 川 = 1.84， 水 者 鱼 = 6.30， 专 辑 = 6.80，…… } 


关键 词 |j Cosine: Sim(d,q) = 





查询 癌 量 = {四 川 = 1， 水 者 鱼 = 1} 





关键 词 1 






关键 词 |] 关键 词 2 


ee 


图 4-1 向量 空间 模型 的 夹 角 余弦 Cosine 计 算 





相对 于 标准 的 布尔 数学 模型 ， 向 量 空间 模型 具有 如 下 优点 。 

: 基于 线性 代数 的 简单 模型 ， 非 常 容易 理解 。 

: 词组 的 权重 可 以 不 是 二 元 的 ， 例 如 采用 tf-idf 这 种 机 制 。 

“ 允许 文档 和 索引 之 间 连 续 相 似 程度 的 计算 ， 以 及 基于 此 的 排序 ， 不 限于 布尔 模型 的 “ 真 ”“ 假 ”两 值 。 


“ 允许 关键 词 的 部 分 匹配 。 





当然 ， 基 本 的 向 量 空间 模型 也 有 很 多 不 足 之 处 : 例如 对 于 很 长 的 文档 ， 相 似 度 得 分 不 会 很 理想 ; 没有 考虑 到 单词 所 代表 的 语义 ， 还 是 限于 精准 匹配 ;没有 考虑 词 在 文档 中 出 现 的 顺序 等 。 











4.1.2 及 时 性 





























经 过 前 面 的 探讨 ， 我 们 发 现 : 要 解决 相关 性 ， 就 要 根据 需求 设计 合理 的 模型 ， 越 是 精细 的 模型 ， 其 计算 的 复杂 度 往往 也 就 越 高 。 同 时 ， 我 们 又 要 保证 非常 高 的 查询 效率 。 互 联网 时 代 ， 用 户 就 是 普通 的 
冲浪 者 ， “爽快 ”的 体验 至 关 重要 。 因 此 ， 搜 索引 擎 的 结果 处 理 必须 是 秒 级 的 ， 通 常 不 能 超过 3 秒 。 坐 在 电脑 前 等 待 几 分 钟 只 是 为 了 知道 明天 上 海 的 天 气 情况 ， 这 是 无 法 想象 的 ， 也 是 无 法 接受 的 。 相 关 性 计 
算 的 复杂 度 和 速度 ， 看 上 去 就 成 了 一 对 无 法 调和 的 矛盾 体 ， 该 如 何 解 决 呢 ? 












































这 里 必须 要 提 到 检索 引擎 最 经 典 的 数据 结构 设计 一 一 倒 排 索引 (或 者 称 逆向 索引 ) 。 先 让 我 们 假想 一 下 ， 你 是 一 个 热爱 读书 的 人 ， 当 你 进入 图 书馆 或 书店 的 时 候 ， 会 怎样 快速 发 现 自己 喜爱 的 图 书 呢 ? 
没 错 ， 就 是 看 书架 上 的 标签 。 如 果 看 到 一 个 架子 上 标 着 “ 亮 饪 ,地方 美 食 ”， 那 么 恭喜 你 ， 离 介绍 川菜 的 书 就 不 远 了 。 倒 排 索引 做 的 就 是 贴标签 的 事情 。 看 看 下 面 的 例子 ( 见 表 4-1) ， 这 是 没有 经 过 倒 排 索 
引 处 理 的 原始 数据 ， 当 然 实际 中 的 文章 不 会 如 此 之 短 。 
































表 4-1 五 篇 文章 样 例 


N 


文章 ID 内 容 
1 最 上 净 的 绝 味 川菜 

大 厨 必 读 系列 : 经 典 川菜 

舌尖 上 的 川菜 

舌尖 上 的 中 国 味 在 家 吃 遍 八 大 菜系 

舌尖 上 的 历史 


ilIwWwID 


对 于 每 篇 文章 的 内 容 ， 我 们 先进 行 中 文 分 司 ， 然 后 将 分 好 的 词 作为 该 篇 的 标签 。 例 如 对 ID 为 1 的 文章 “最 上 瘤 的 绝 味 川菜 ”进行 分 词 ， 可 分 为 如 下 5 个 词 自 : 
最 ， 上 丫 ， 的 ， 绝 味 ， 川 莱 
那么 文章 1 就 会 有 5 个 关键 词 标签 ， 见 表 4-2。 


表 4-2 文章 1 分 词 之 后 的 结果 


3 的 1 
1 


再 分 析 1D 为 2 的 文章 “大 厨 必 读 系列 : 经 典 川菜 ”， 它 可 以 分 为 如 下 5 个 词 : 


大 厨 ， 必 读 ， 系 列 ， 经 典 ， 川 菜 


如 果 和 第 1 次 的 标签 结果 合并 起 来 ， 我 们 可 以 得 到 表 4-3。 


表 4-3 文章 1 和 2 分 词 之 后 的 结果 


' ' 
2 
3 的 1 
1 
2 
5 


请 注意 ID 为 5 的 关键 词 “川菜 ” 








， 它 在 文章 1 和 2 中 都 出 现 过 ， 所 以 我 们 会 将 其 对 应 的 文档 ID 写 上 “1，2”。 











如 此 逐个 分 析 完 所 有 5 篇 文章 之 后 ， 我 们 会 得 到 表 4-4， 这 就 是 倒 排 索引 的 原型 。 


表 4-4 五 篇 文章 分 词 之 后 所 建立 的 倒 排 索引 


IIE 文章 
1 最 1 
4 ! 
5 川菜 be 
6 大 厨 2 
7 2 
; 2 
2 
10 舌尖 3, 4, 5 
14 4 
15 4 
16 八大 4 
18 历史 5 




















这 里 一 共 出 现 了 18 个 不 重 


复 的 


词 ， 我 们 将 这 个 集合 称 为 文档 集合 的 词典 或 词汇 (Vocabulary) 。 从 上 面 这 个 结构 可 以 看 出 ， 建 立 倒 排 索引 的 时 候 ， 是 将 文档 - 关键 词 的 关系 转变 为 关键 词 - 文档 集合 

















的 关系 ， 同 时 逐步 建立 词典 。 有 了 这 种 数据 结构 ， 你 会 发 现 关键 词 的 查询 就 像 在 图 书馆 里 根据 标签 找 书 一 样 方便 快捷 ， 效 率 得 到 大 大 提升 。 理 解 了 倒 排 索 引 的 工作 机 制 ， 你 就 会 明白 第 2 章 中 所 讨论 的 关键 词 
SEO 为 何如 此 重要 。 对 于 布尔 模型 而 言 ， 简 单 的 倒 排 索引 完全 可 以 满足 需求 。 例 如 ， 我 们 查找 : 






































川菜 AND 舌 尖 








通过 查找 “川菜 ”系统 会 返回 文章 ID 1，2，3; 通过 查找 “舌尖 ”系统 会 返回 文章 ID 3，4，5。 再 取 交 集 ， 我 们 就 能 找到 文章 3 并 进行 返回 。 取 交集 的 归并 操作 在 计算 机 领域 已 经 非常 成 熟 ， 速 度 快 得 
惊人 。 

















考虑 到 布尔 模型 的 邻近 (Proximity) 操作 ， 或 者 : 
超 高 的 效率 。 





他 的 计算 模型 ， 我 们 还 可 以 在 数据 结构 中 加 上 词 的 位 置 ， 以 及 tf-idf 等 信息 ， 这 里 不 再 深入 展开 。 此 处 最 重要 的 结论 是 : 我 们 可 以 通过 倒 排 索引 保持 





























互联 网 时 代 的 到 来 ， 促 使 现代 搜索 引擎 得 到 飞速 的 发 展 。 目 前 ， 搜 索引 警 是 信息 检索 最 成 功 、 最 广泛 的 应 用 之 一 。 它 几乎 具有 信息 检索 所 有 的 要 素 : 预 处 理 文本 信息 、 构 建 倒 排 索引 、 匹 配 查询 关键 
词 、 计 算 相关 性 等 。 但 是 ， 鉴 于 互联 网 应 用 的 特殊 性 ， 它 又 有 自身 的 独到 之 处 。 在 传统 的 信息 检索 中 ， 特 别 是 文档 搜索 ， 其 相关 性 是 至 关 重要 的 。 可 是 ， 在 互联 网 时 代 的 各 种 应 用 中 ， 除 了 相关 性 ， 我 们 还 
需要 考虑 其 他 的 因素 。 例 如 ， 对 于 Web 的 搜索 引擎， 我 们 要 考虑 网 页 的 权威 性 ; 对 于 电子 商务 而 言 ， 商 品 的 热 销 记 和 价格 等 则 是 顾客 非常 关心 的 ， 对 于 在 线 广告 而 言 ， 广 告 栏 位 的 可 信 度 也 会 影响 用 户 的 点 
击 。 因 此 ， 在 检索 结果 的 相关 性 等 同 (或 者 基本 等 同 ) 的 前 提 下 ， 我 们 还 要 考虑 在 应 用 场景 下 还 会 影响 到 最 终 转 化 率 的 因素 。 如 果 读者 对 于 其 中 的 细节 很 感 兴趣 ， 可 以 参考 《大 数据 架构 商业 之 路 》 一 书 的 
第 5 章 。 





























































































































四 本 节 提 及 的 相关 性 ， 都 是 基于 文本 的 数据 。 图 像 、 音 像 的 处 理 不 在 本 书 的 讨论 范围 之 内 。 
四 可 能 存在 不 同 的 分 法 ， 因 为 中 文 分 词 本 身 也 是 门 学 问 。 


4.2 ”搜索 引擎 的 评估 


和 机 器 学 习 的 算法 类 似 ， 信 息 检索 或 搜索 的 效果 究竟 需要 如 何 进行 科学 的 评估 。 检 索 质量 最 基本 的 两 个 评测 指标 是 精度 (Precision) [0 和 召回 率 (Recall) 。 假 设 一 个 数据 集 D 中 ， 和 一 个 信息 需求 ik 相 


关 的 数据 集合 是 m， 在 用 户 输入 需求 后 ， 某 个 检索 系统 返回 了 结果 集合 nh， 而 o 是 集合 m 和 n 的 交集 ， 具 体 如 图 4-2 所 示 。 
D- 数 据 全 集 













































































O- 结 果 集 
中 的 相关 集 





m 一 i 的 相关 集 17- 检索 的 结 来 集 


图 4-2 ”用 于 定义 精度 和 召回 率 的 三 个 集合 


那么 精度 p 的 定义 为 : 


O 


nn 


召回 率 r 的 定义 为 : 


三 


上 述 的 定义 是 假设 用 户 已 经 检测 了 整个 返回 的 结果 集合 n。 试 想 一 下 真实 的 场景 ， 用 户 最 典型 的 行为 是 从 头 到 尾 开 始 阅读 ， 因 此 随 着 检阅 数据 的 不 断 增加 ， 精 度 和 召回 率 是 不 断 变 化 的 。 这 里 将 结合 4.1 


节 提 到 的 美食 案例 来 进行 阐述 ， 表 4- 5 展示 了 拥有 10 篇 文章 的 文档 集合 。 后 面 标明 了 每 篇 文章 是 否 包含 “美食 ”这 个 关键 词 ， 以 及 是 否 和 美食 的 主题 相关 四， 可 以 看 到 ， 总 共有 8 篇 文章 包含 关键 词 “ 美 
食 ”， 还 有 5 篇 文章 是 和 美食 主题 相关 。 






















































































“小 明 哥 ， 这 里 我 能 提 个 问题 吗 ?“ 
“当然 ， 请 讲 。 


“如 何 判断 文章 和 某 个 主题 是 否 相关 呢 ? 每 个 人 也 许 都 会 有 不 同 的 观点 吧 。” 




















“一 点 也 不 错 ， 相 关 性 的 判定 总 是 带 有 主观 性 ， 这 也 是 离线 测试 面临 的 问题 。 在 实际 应 用 中 比较 像 电视 里 播放 的 选秀 节目 ， 需 要 专业 的 人 士 来 做 裁判 ， 而 且 可 能 需要 多 个 评委 来 综合 评定 ， 避 免 个 别人 
的 主观 想法 影响 了 整个 测试 集合 。 这 里 让 我 们 假设 表 4-5 中 的 判断 都 是 准确 的 吧 。 














表 4-5 美食 文档 集合 的 示例 


文章 |D 是 否 包含 关键 词 “美食 ” | 。 是 否 和 美食 相关 








1 最 上 净 的 绝 味 川 莱 是 
3 美丽 的 摩 避 都 市 ， 上 光 否 
7 2015 娱乐 风向 标 否 
10 居家 生活 好 帮手 否 
13 澳大利亚 旅游 指南 否 











当 用 户 搜索 “美食 ”这 个 关键 词 时 ， 某 系统 A 按 如 下 形式 依次 返回 8 篇 包含 “美食 ”关键 词 的 文章 。 





标题 
舌尖 上 的 历史 
居家 生活 好 帮手 
北京 美食 地 图 


世界 饮食 文化 
爱心 歌手 出 席 现 场 活动 
最 上 次 的 绝 味 川菜 

在 家 吃 遍 八大 菜系 
澳大利亚 旅游 指南 












































假设 用 户 从 第 一 个 排 位 开始 阅读 ， 直 到 | 将 8 个 返回 的 结果 全 部 读 完 。 看 到 第 一 位 的 文章 5， 属 于 相关 ， 那 么 这 个 时 候 的 精度 是 1/1=100%， 其 中 分 子 1 和 分 母 1 都 表示 文章 5; 召回 率 是 1/5=20%， 其 中 分 
子 1 表 示 文 章 5， 分 母 5 表示 文章 1、5、8、11 和 14。 再 往 下 ， 看 到 第 二 位 的 文章 10， 不 相关 ， 那 么 这 个 时 候 的 精度 是 1/2= 50%， 其 中 分 母 2 表示 前 两 位 的 文章 5 和 10; 召回 率 仍然 是 1/5=20%。 依 此 类 推 ， 看 
到 第 三 至 八 位 后 ， 精 度 分 别 是 66.6796、7596、609%6、66.67%、71.439%6、62.5%， 而 召回 率 分 别 是 40%、60%、60%、80%、100%、100%。 以 精度 和 召回 率 为 2 个 轴线 ， 我 们 可 以 画 出 如 图 4-3 所 示 的 曲线 
司 ， 其 中 黑色 的 直线 表示 趋势 线 。 
















































































精度 
120.00% 


100.00% 轩 时 
80.00% 
Fai 
ps | 
60.00% < $0— 精度 
40.00% 


20.00% 


0.00% 
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图 4-3 ”精度 和 召回 率 的 对 应 关系 














从 图 4-3 中 可 以 发 现 : 随 着 返回 结果 数量 的 增加 ， 召 回 率 是 呈现 逐步 上 升 的 趋势 ， 而 精度 虽 有 波动 ， 但 整体 上 是 下 降 的 趋势 。 召 回 率 和 精度 大 体 上 是 呈现 反比 关系 。 这 也 是 实际 应 用 中 常见 的 模式 ， 而 且 
越 是 检索 质量 高 的 系统 ， 这 个 特征 越 明 显 。 可 见 ， 召 回 率 和 精度 虽然 都 很 重要 ， 但 是 鱼 和 熊 掌 不 可 兼 得 。 因 此 ， 设 计 者 应 该 根据 实际 需求 ， 尽 量 均衡 这 两 者 之 间 的 得 失 。 例 如 ， 在 识别 诈骗 案例 的 时 候 ， 一 
般 都 是 希望 稍 有 嫌疑 就 拉 入 审核 的 名 单 ， 因 此 召回 率 更 重要 ， 较 低 的 精度 可 以 通过 人 工 审核 来 浆 补 。 而 在 知识 问答 系统 中 ， 就 不 见得 需要 返回 很 多 条 的 候选 ， 只 要 保证 排 在 最 前 面 的 答案 足够 精准 即 可 。 














































































































精确 率 和 召回 率 的 概念 比较 简单 ， 计 算 也 很 方便 ， 因 此 广泛 应 用 于 信息 检索 的 评估 中 。 在 此 基础 之 上 ， 人 们 又 延伸 和 定义 了 其 他 几 个 常见 的 衡量 指标 ， 即 F 值 、 前 n 精 度 、R 精 度 、 平 均 精 度 均 值 、 归 一 
化 折 损 累积 增益 、 斯 皮尔 曼 系 数 等 。 参 考 《大 数据 架构 商业 之 路 》 一 书 的 7.1.1 节 ， 你 可 以 获取 更 多 的 相关 内 容 。 























[1] 也 有 文献 将 Precision 翻 译 为 准确 率 。 这 里 译 为 精度 是 为 了 和 第 1 章 介绍 的 分 类 准确 率 (Accuracy) 进行 区 别 。 
[2 包含 1 个 关键 词 并 不 代表 一 定 和 这 个 主题 相关 ， 在 4.1 节 的 检索 模型 中 已 有 所 介绍 。 


4.3 ”为 什么 不 是 数据 库 


“大 宝 ， 了 解 完 搜索 的 背景 知识 之 后 ， 你 现在 清楚 了 为 什么 传统 的 数据 库 不 一 定 适 合 搜索 引擎 的 搭建 了 吧 ?“ 




















我 现在 明白 了 ， 普 通 的 数据 库 很 难 满足 用 户 多 方位 的 需求 ， 这 主要 是 因为 其 有 如 下 几 个 特性 。 

















“ 精确 的 匹配 方式 : 数据 库 擅长 的 是 精准 匹配 ， 例 如 ， 根 据 商 品 的 ID， 或 者 完整 的 标题 来 查找 。 而 网 站 的 顾客 是 无 法 输入 商品 的 条 形 码 或 唯一 标识 ID 来 查找 的 ， 一 定 是 输入 某 些 简短 的 关键 词 ， 例 
如 “牛奶 ”》 “川菜 ” “美甲 ”等 。 即 使 某 些 数据 支持 模糊 匹配 ， 例 如 SQL 中 的 Like 语 法 ， 其 处 理 和 匹配 的 效率 也 相对 较 低 下 ， 很 难 满足 高 并 发 的 网 站 流量 。 





“ 相关 性 考虑 不 足 : 搜索 引擎 返回 结果 和 用 户 输入 是 否 相关 ， 是 决定 其 成 功 与 否 的 关键 。 试 想 一 下 ， 当 客户 输入 “牛奶 ”之 后 ， 返 回 的 都 是 牛奶 味 饼干 ， 甚 至 是 牛奶 色 的 衣服 ， 那 么 用 户 的 体验 是 多 么 
的 糟糕 。 这 也 是 为 什么 针对 搜索 引擎 的 效果 评估 中 ， 需 要 考虑 到 精准 率 。 普 通 的 数据 库 是 完全 不 会 考虑 这 些 层面 的 需求 的 。 


“ 查询 的 实时 性 要 求 不 同 。 如 前 所 述 ， 数 据 库 的 查询 通常 是 大 规模 的 批量 处 理 ， 因 此 响应 速度 的 要 求 并 不 高 。 对 于 数据 分 析 员 而 言 ， 等 几 分 钟 甚至 更 长 的 时 间 都 是 可 以 接受 的 。 而 搜索 则 不 同 ， 使 用 者 
不 可 能 等 待 过 久 。 


“ 较 高 的 系统 耦合 度 : 如 果 使 用 数据 库 做 搜索 ， 那 么 对 于 数据 库 的 使 用 一 般 有 两 种 选择 。 第 一 ， 直 接 读 取 主 库 山 ， 第 二 ， 读 取 备 库 趾 。 选 择 主 库 的 好 处 是 节省 存储 空间 ， 而 且 可 以 获得 最 新 的 商品 信 
息 。 但 是 风险 在 于 搜索 请 求 的 流量 很 大 ， 可 能 会 对 主 库 造 成 太 大 的 压力 ， 甚 至 导致 其 宕 机 ， 那 么 整个 核心 系统 就 会 无 法 注册 、 登 录 和 交易 了 ， 这 对 公司 的 业务 是 致命 性 的 打击 ， 因 此 并 不 推荐 。 这 种 情况 我 
们 称 为 系统 耦合 度 太 高 ， 不 利于 开发 、 维 护 和 事故 处 理 。 


“ 宛 余 的 系统 : 当然 ， 如 果 不 使 用 主 库 ， 还 可 以 用 备 库 来 做 。 这 样 可 以 在 很 大 程度 上 缓解 主 库 的 压力 。 但 是 ， 备 库 通常 是 直接 将 整个 主 库 全 盘 复制 ， 这 会 导致 消耗 更 多 的 数据 存储 。 但 在 搜索 的 时 候 并 
非 所 有 的 数据 表 和 字段 都 要 使 用 ， 因 此 造成 了 浪费 。 如 果 想 要 更 高 效 地 利用 存储 资源 ， 还 需要 更 为 精细 化 的 主 从 同步 配置 ， 而且 也 未 必 能 细 分 到 字段 级 别 。 


分 品类 


“ 缺乏 高 级 功能 。 目 前 ， 用 户 已 经 习惯 在 浏览 搜索 结果 的 同时 ， 看 到 各 种 导购 属性 和 细 
重新 编写 不 仅 耗 费时 间 ， 而 且 效 果 和 性 能 也 都 无 法 得 到 保证 。 


， 以 便 进行 进一步 的 筛选 ， 直 至 选中 满意 的 商品 。 而 数据 库 缺 少 对 这 种 应 用 需求 的 足够 支持 ， 完 全 人 靠 自己 


“ 没有 很 好 的 辅助 模块 : 对 于 一 个 成 熟 的 搜索 引擎 而 言 ， 通 常 需要 多 个 模块 协同 工作 。 例 如 ， 中 文 网 站 需要 一 个 精准 的 中 文 分 词 处 理 ， 将 “精致 的 美甲 套餐 ”整个 字符 串 切 分 为 “精致 
甲 ” 和 “套餐 ”等 若干 中 文 关键 词 。 数 据 库 一 般 都 没有 集成 这 类 模块 。” 


“的 ”“ 美 











总 结 !“ 


忌 纺 : 














“ 嗯 ， 你 还 考虑 到 了 系统 的 耦合 和 宛 余 ， 不 错 的 小 明 接着 说 道 : 
比 ， 数 据 库 更 适合 结构 化 、 关 系 型 数据 的 精确 查询 ， 支 持 频繁 地 修改 和 
进行 频繁 修改 和 删除 的 效率 就 不 一 定 高 了 ， 其 更 适合 以 读 取 为 主 的 应 


“不 过 ， 这 两 者 并 不 存在 熟 优 熟 劣 的 问题 ， 还 是 需要 结合 实际 应 用 的 场景 ， 根 据 它们 各 自 的 特点 来 选择 。 正 如 你 刚刚 所 做 的 对 
删除 之 类 的 写 操作 ， 但 不 一 定 支 持 非 常 实时 的 查询 。 而 搜索 必须 经 过 倒 排 索引 的 建立 ， 对 实时 性 强 、 模 糊 性 强 的 查询 非常 有 利 ， 但 是 
。 既然 确 定 了 大 的 技术 方向 ， 下 面 就 来 看 看 系统 的 框架 和 常规 实现 。 



































上 最 主要 的 数据 库 ， 新 的 数据 都 在 这 里 写 入 和 更 新 。 对 于 电 商 等 互联 网 系统 而 言 ， 主 库存 储 了 最 为 核心 的 商品 、 交 易 和 用 户 数据 。 
[中 备 库 将 会 是 定期 从 主 库 同步 数据 ， 因 此 更 新 有 一 定 的 延迟 ， 但 是 可 以 为 主 库 分 担 压力 。 





4.4 ”系统 框架 








在 纵览 了 信息 检索 和 搜索 系统 的 主要 特性 之 后 ， 这 里 先 来 总 结 一 下 在 一 般 情况 下 应 该 如 何 实现 搜索 引擎 的 系统 框架 。 倒 排 索 引 使 得 快速 查询 成 为 可 能 ， 但 是 需要 额外 的 预 处 理工 作 ， 例 如 中 文 分 词 、 建 
立 并 存储 索引 表 等 。 考 虑 到 所 有 这 些 特性 ， 通 常 搜索 系统 的 框架 都 是 划分 为 两 个 重要 的 步骤 : 离线 的 预 处 理 和 在 线 的 查询 。 














4.4.1 ”离线 预 处 理 


这 个 阶段 通常 包括 数据 获取 、 文 本 预 处 理 、 词 典 (特征 空间 ) 和 倒 排 索引 的 构建 、 基 本 信息 统计 等 。 
1 .数据 获取 


对 于 常规 的 Web 网 络 搜索 ， 发 现 并 获取 外 部 的 网 页 信息 是 必 不 可 少 的 步骤 。 通 常 ， 这 个 步骤 是 通过 网 页 息 虫 (Crawler/Spider) 来 实现 的 。 爬 虫 Spider 顺 着 网 页 中 的 超 链接 ， 从 这 个 网 站 爬 到 另外 一 个 
网 站 ， 然 后 通过 超 链接 分 析 连 续 访问 并 抓 取 更 多 的 网 页 。 我 们 将 被 抓 取 的 网 页 称 为 网 页 快照 。 由 于 互联 网 中 超 链接 的 应 用 很 普遍 ， 理 论 上 ， 从 一 定 范围 的 网 页 出 发 ， 就 能 搜集 到 绝 大 多 数 的 网 页 。 需 要 注意 
的 是 ， 并 非 所 有 的 搜索 应 用 都 需要 这 一 步 ， 例 如 电子 商务 的 商品 数据 ， 就 是 来 自 内 部 业务 人 员 的 输入 和 运营 。 









































2. 文 本 预 处 理 











常规 的 文本 预 处 理 是 指针 对 中 文 等 语系 所 进行 的 分 词 操作 、 针 对 英文 的 词 了 展 词 处 理 。 





FF (Stemming) 和 归 一 化 (Normalization) 处 理 ， 以 及 所 有 语言 都 会 磁 到 的 停 有 








词 (Stopword) 、 同 义 词 和 扩 





:中文 分 词 : 中 文 比较 复杂 的 地 方 在 于 分 词 ， 这 点 在 第 1 章 的 实战 部 分 已 经 有 所 提 及 。 我 们 知道 ， 在 英文 的 行文 中 ， 单 词 之 间 是 以 空格 作为 自然 分 界 符 的， 而 中 文 只 是 字 、 


进行 简单 划 界 ， 唯 独 词 没 有 一 个 形式 上 的 分 界 符 。 中 文 分 词 就 是 将 连续 的 字 序 列 按照 一 定 的 规范 重新 组 合成 词 序 列 的 过 程 。 目 前 主流 的 分 词 模 型 分 为 如 下 2 大 类 。 


名 和 段 能 通过 明显 的 分 界 符 来 


“ 基于 字符 串 匹 配 ， 即 扫描 字符 串 ， 如 果 发 现 字符 串 的 子囊 和 词 相同 ， 就 算 作 匹 配 。 匹 配 规则 通常 是 “ 正 向 最 大 匹配 ” “长 词 优先 ”。 


歧义 词 效果 不 佳 。 


“北向 最 大 匹配 ” 这 些 算法 的 优点 是 计算 复杂 度 低 ， 缺 点 是 处 理 


“ 基于 统计 和 机 器 学 习 ， 这 类 分 词 基于 人 工 标注 的 词性 和 统计 特征 ， 对 中 文 进行 建 模 。 训 练 阶段 则 是 根据 标注 好 的 语 料 对 模型 参数 进行 估计 。 在 分 词 阶段 再 通过 模型 计算 各 种 分 词 出 现 的 概率 ， 将 概率 


最 大 的 分 词 结 果 作为 最 终结 果 。 常 见 的 序列 标注 模型 有 隐 马 尔 科 夫 模型 (HMM) 和 条 件 随 机 场 (CRF) 。 


冬 结 


它 需 


“ 词 干 和 归 一 化 : 英文 相对 中 文 而 言 ， 
例如 : 


完全 无 须 考虑 分 词 。 不 过 它 有 中 文 所 不 具 的 单 复数 、 各 种 时 态 ， 因 此 它 需 要 考虑 词 干 。 词 干 还 原 的 目标 就 是 为 了 减少 词 的 变化 形式 ， 将 派生 词 转化 为 基本 形式 ， 


* am、atre、is、was、were 全 部 转换 为 be 
car、cars、catr”s、cars” 全 部 转换 为 car 
最 后 ， 还 要 考虑 大 小 写 转化 和 多 种 拼写 (例如 color 和 colour) 这 样 的 统一 化 ， 学 术 上 称 之 为 归 一 化 。 


“ 停 用 词 : 无 论 何 种 语言 ， 都 会 存在 对 相关 性 判定 意义 不 大 的 词 ， 例 如 在 4.1.1 节 介绍 的 idf 很 低 的 值 。 有 的 时 候 干脆 可 以 指定 一 个 叫 停 用 词 的 字典 ， 直 接 将 这 些 词 过 滤 掉 ， 不 建 入 索引 中 。 例 如 英文 中 的 
a、an、the、that、is、good、bad 等 。 中 文中 的 “的 、 个 、 你 、 我 、 他 、 好 、 坏 ”等 。 如 此 一 来 ， 我 们 可 以 压缩 索引 文件 的 大 小 ， 在 不 损失 甚至 是 提升 相关 性 的 前 提 下 ， 提 高 查询 的 效率 。 当 然 ， 也 要 注意 停 
用 词 的 使 用 场景 ， 例 如 用 户 观 点 分 析 ，good 和 bad 这 样 的 形容 词 反 而 成 为 关键 。 不 仅 不 能 过 滤 ， 反 而 还 要 加 大 它们 的 权重 。 


“ 同义词 和 扩展 词 : 不 同 的 地 域 或 不 同 的 时 代 ， 人 们 对 于 同 种 物品 的 叫 法 也 不 相同 。 例 如 ， 在 中 国 北 方 “ 番 匣 “应 该 叫 “ 西 红 柿 ”， 而 台 
意识 到 这 两 个 词 是 等 价 的 。 添 加 同义词 就 是 一 个 很 好 的 手段 。 我 们 可 以 维护 如 下 一 个 同义词 的 词典 


湾 地 区 则 将 “菠萝 ” 称 为 “凤梨 ”。 对 于 检索 系统 而 言 ， 需 要 


番茄 ， 西 红 柿 ，Tomato 


菠萝 ,凤梨 


洋 山芋, 土豆 





泡 面 ， 方 便 面 ， 速 食 面 ， 快 餐 面 














山芋 , 红 车 
鼠标 ， 滑 鼠 











有 了 这 样 的 词典 ， 在 进行 离线 处 理 的 时 候 ， 系 统 看 到 文档 中 的 “番茄 ”关键 词 ， 在 索引 里 就 会 同时 增加 “西红柿 ”这 个 词 。 如 此 一 来 ， 即 使 北方 的 用 户 在 搜索 “西红柿 ”的 时 候 ， 查 询 也 能 匹配 上 该 文 




















有 的 时 候 我 们 还 需要 扩展 词 。 如 果 将 Dove 分 别 和 多 芬 、 德 芙 简单 的 等 价 在 一 起 ， 那 么 多 芬 和 德 芙 也 变 成 了 同义词 ， 这 样 明 显 是 有 问题 的 。 那 么 我 们 可 以 采用 偏 序 的 扩展 关系 ， 当 系统 看 到 文档 中 的 “多 
芬 ” 时 添加 “Dove”， 看 到 “ 德 芙 ”时 也 添加 “Dove”。 但 是 看 到 “Dove” 的 时 候 不 添加 “多 芬 ”或 “ 德 芙 ”。 这 样 搜索 “Dove” 的 时 候 就 能 同时 查 到 多 芬 和 德 革 品牌 的 商品 ， 而 搜索 多 芬 时 不 会 误 出 
现 德 芙 巧克力 。 














这 时 ， 好 奇 的 大 宝 头脑 里 又 闪 过 一 个 想法 : “同义词 和 扩展 词 ， 是 否 一 定 要 在 离线 进行 预 处 理 ” 可 不 可 以 在 线 查询 的 时 候 动态 处 理 ?“ 











小 明 反问 道 : “你 觉得 呢 ? 如 果 可 以 实现 ， 离 线 处 理 和 在 线 处 理 各 有 什么 优势 ?“ 
3 .特征 空间 和 倒 排 索引 的 构建 


前 面倒 排 索引 部 分 介绍 了 将 文集 转换 为 关键 词 -文档 的 同时 ， 可 以 构建 该 文集 的 词典 (Vocabulary) 。 而 在 向 量 空间 模型 (VSM) 中 ， 更 是 将 词典 中 每 个 单词 作为 向 量 的 一 个 维度 。 其 实 ， 我 们 大 可 不 
必 限 制 每 个 维度 必须 为 单词 。 例 如 电子 商务 领域 中 ， 一 个 商品 的 用 户 购买 数据 ， 就 不 是 代表 某 个 单词 ， 而 是 代表 某 个 用 户 购 买 该 商品 的 行为 。 其 数值 也 不 是 tf-idf 这 种 对 词 的 权重 评估 ， 而 是 一 定 周期 内 用 户 
购买 的 次 数 。 因 此 可 以 将 单词 扩展 为 特征 (Feature) ， 相 应 的 ， 将 字典 扩展 为 特征 空间 (Feature Space) 。 特 征 空间 在 信息 检索 和 数据 挖掘 的 领域 中 ， 都 是 非常 重要 的 概念 。 有 了 特征 空间 ， 我 们 就 能 利 
哈 希 表 (Hash Table) 的 结构 建造 倒 排 索引 。 哈 希 的 键 值 是 特征 ID， 其 后 的 链表 存储 了 相应 的 数据 。 例 如 ， 对 于 粉 燕 排 骨 这 个 商品 ， 用 户 购买 特征 的 ID 为 1000， 对 应 的 链表 中 有 30 个 用 户 节 点 ， 每 个 节 
点 的 ID 都 是 用 户 ID， 而 数值 是 一 年 内 该 用 户 购买 此 粉 蒸 排骨 的 次 数 。 如 果 我 们 再 进一步 扩展 一 下 ， 其 实 搜索 的 内 容 也 不 再 限于 文档 ， 而 是 任何 一 个 可 以 用 特征 表示 的 数据 对 象 ， 例 如 一 名 顾客 ， 他 /她 可 以 
上 网 购物 站 点 、 次 数 、 金 额 等 来 表示 。 这 点 在 第 10 章 推荐 系统 实战 中 也 有 所 体现 。 
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4. 应 用 相关 的 统计 和 排序 
































不 同 领域 的 搜索 应 用 ， 需 要 考虑 更 多 的 因素 。 绝 大 部 分 的 相关 统计 ， 都 需要 进行 离线 的 收集 、 计 算 和 存储 。 还 有 基于 学 习 的 排序 ， 训 练 部 分 也 是 典型 的 离线 处 理 模块 。 


4.4.2 ”在 线 查询 




















其 实 ， 在 完成 数据 的 离线 处 理 之 后 ， 在 线 查询 是 相对 简单 和 直观 的 。 查 询 一 般 都 会 使 用 和 离线 模块 一 样 的 预 处 理 ， 特 征 空间 也 是 沿用 离线 处 理 的 结果 。 当 然 ， 也 可 能 会 出 现 离线 处 理 中 未 曾 出 现 过 的 新 
特征 ， 一 般 会 忽略 或 给 予 非常 小 的 权重 ， 就 像 我 们 在 第 1 章 中 修正 R 的 朴素 贝 叶 斯 分 类 器 那样 。 在 此 基础 上 ， 系 统 根据 用 户 输入 的 查询 条 件 ， 在 索引 库 中 快速 地 检索 出 数据 对 象 ， 并 给 出 相关 度 评价 。 例 如 : 
最 简单 的 布尔 模型 只 需要 计算 若干 匹配 条 件 的 交集 ; 空间 模型 (VSM) 只 需要 计算 查询 向 量 和 待 查 向 量 的 余弦 夹 角 ， 等 等 。 综 合 上 述 的 介绍 ， 可 以 得 到 如 图 4-4 所 示 的 概览 图 。 更 多 细节 请 参考 《大 数 
据 架 构 商 业 之 路 》 一 书 5.5.1 节 至 5.5.3 节 所 介绍 的 内 容 。 






































































































数据 获取 ( 礁 虫 ) 词 干 、 归 一 化 、 停 词 、 
同义词 /扩展 词 
建立 倒 排 索引 





应 用 领域 数据 统计 : 














模型 相关 数据 统计 : 
;ee tfidf、 概 率 特征 空间 
处 下 点 


多 因子 排序 模型 训练 


倒 排 索引 


训练 样本 





排序 模型 参数 
让 多 因子 排序 预测 A 

处 

理 


词 干 、 归 二 化 、 停 词 、 匹配 计算 相关 性 计算 
同义词 /扩展 词 


图 4-4 搜索 引擎 常见 系统 架构 





























由 于 搜索 引擎 在 大 数据 领域 有 着 非常 广泛 的 应 用 ， 不 少 开源 (Open Source) 的 项 目 都 对 其 提供 了 良好 的 实现 。 这 些 项 目 都 有 清晰 的 文档 说 明 ， 而 且 更 为 重要 的 是 ， 其 良好 的 开放 性 ， 为 我 们 进行 进 一 
步 的 自 定义 扩展 提供 了 广阔 的 舞台 。 目 前 非常 流行 的 3 个 项 目 有 Lucene、Solr 和 Elasticsearch。Lucene (http://lucene.apache.org/) 是 Java 家 族 中 最 为 出 名 的 一 个 开源 搜索 引擎 ， 在 Java 世 界 中 已 经 是 标 
准 的 全 文 检索 程序 ， 它 提供 了 完整 的 索引 引擎 和 查询 引擎 。Solr (http://lucene.apache.org/solr/) 是 一 个 使 用 Java 开 发 的 、 独 立 的 企业 级 搜索 应 用 服务 器 ， 它 对 Lucene 进 行 了 良好 的 封装 ， 提 供 了 更 加 丰 
富 的 功能 和 接口 ， 对 于 企业 级 应 用 而 言 其 是 一 种 更 为 成 熟 的 解决 方案 。Elasticsearch (http://www.elasticsearch.org/) 和 Solr 类 似 ， 同 样 是 一 个 采用 Java 语 言 、 基 于 Lucene 构 造 的 开源 分 布 式 搜索 引 掌 。 
其 设计 的 目的 是 能 够 达到 实时 搜索 ， 稳 定 可 靠 。 下 面 就 来 快速 地 介绍 一 下 这 3 个 开源 系统 。 


























































































































4.5 ”常见 的 搜索 引 警 实现 


4.5.1 Lucene 简 介 



































Lucene (http://lucene.apache.org) 是 一 个 开放 源 代码 的 全 文 检索 引擎 工具 包 ， 是 近 几 年 非常 受 欢迎 的 免费 Java 信 息 检索 程序 库 。 它 最 初 是 由 Doug Cutting 编 写 的， 并 于 2000 年 3 月 在 SourceForge 
上 开源 并 提供 下 载 。2000 年 10 月 份 发 布 1.0 版 本 ，2001 年 7 月 发 布 了 最 后 一 个 SourceForge 版 本 1.01b。2001 年 9 月 份 Lucene 作 为 高 质量 的 Java 开 源 软 件 产 品 加 入 Apache 软 件 基 金 会 的 Jakarta 家 族 ，2005 年 
升级 成 为 Apache 顶 级 项 目 。Lucene 本 身 并 不 是 一 个 完整 的 全 文 检索 引擎 ， 但 是 其 提供 了 完整 的 索引 引擎 、 查 询 引擎 和 部 分 文本 分 析 引 警 (英文 等 西方 语言 ) 。 其 目的 是 为 软件 开发 人 员 提 供 一 个 简单 易 
的 工具 包 ， 以 便于 在 目标 系统 中 实现 全 文 检索 的 功能 ， 或 者 是 以 此 为 基础 建立 起 完整 的 全 文 检索 引擎 。 
















































































1. 字 段 和 文档 





首先 ， 让 我 们 先 来 认识 下 Lucene 里 面 的 两 个 重要 的 概念 : 字段 (Field) 和 文档 (Document) 。 这 里 的 “字段 ”和 数据 库 里 的 概念 非常 类 似 ， 它 包含 了 需要 被 搜索 到 的 内 容 。 例 如 文章 的 标题 就 是 一 个 
字段 。Lucene 处 理 每 个 字段 的 方式 也 可 以 不 同 ， 有 不 同 的 选项 供 选择 ， 最 基本 的 包括 如 何 索 引 、 是 否 存储 、 词 条 向 量 (TermVector) 等 。 




















其 常见 的 索引 选项 (这 里 的 索引 是 特 指 倒 排 索 引 ) 具体 如 下 。 





“ Index.ANALYZED: 将 字段 值 分 解 成 为 独立 的 单词 流 ， 并 记 入 倒 排 索引 ， 使 得 每 个 单词 都 能 被 搜索 到 。 这 是 最 常规 的 选择 ， 最 典型 的 应 用 就 是 中 文 分 词 和 英文 抽取 词 干 ， 适 合 应 用 于 如 标题 、 正 文 等 
这 样 的 普通 文本 。 


“ Index.NOT_ANALYZED: 不 做 任何 分 词 、 抽 取 词 干 和 过 滤 停 用 词 等 操作 ， 直 接 将 字段 值 记 入 索引 。 适 合 应 用 于 如 电话 号 码 、 文 件 路 径 、 网 页 URL 等 这 样 的 “精确 匹配 ”。 这 些 信 息 如 果 采 用 
IndexANALYZED， 则 可 能 会 导致 错误 的 查询 命中 。 





“ IndexNO: 字段 值 不 记 入 索引 ， 也 无 法 搜索 到 。 你 可 能 会 党 得 奇怪 ， 既 然 无 法 搜索 ， 为 什么 还 需要 这 个 字段 呢 ? 这 是 因为 ， 在 特定 场合 下 我 们 虽然 不 希望 某 个 字段 被 查询 到 ， 但 是 还 是 希望 其 信息 能 











什 
被 展示 出 来 。 例 如 : 商品 图 片 在 服务 器 上 的 存放 地 址 。 对 于 这 个 地 址 普通 的 顾客 当然 是 无 法 知道 ， 也 是 不 需要 知道 的 ， 所 以 无 须 作为 搜索 条 件 ， 自 然 也 不 用 记 入 倒 排 索引 。 但 是 ， 当 该 商品 被 查询 出 来 ， 并 
需要 展示 给 顾客 时 ， 其 图 片 信息 还 是 必 不 可 少 的 ， 因 此 有 必要 存储 在 正 向 索引 里 。 下 面 就 来 解释 字段 存储 有 哪些 选择 。 





常见 的 存储 选项 具体 如 下 。 


“ Store.YES: 将 字段 值 进行 存储 。 原 始 的 值 将 全 部 存储 在 正 向 索引 中 ， 上 述 的 商品 图 片 就 是 一 个 很 适合 的 应 用 场景 。 需 要 注意 的 是 ， 相 对 上 述 的 索引 选 型 ， 这 种 操作 会 消耗 较 大 的 存储 空间 。 在 实践 中 
我 们 并 不 鼓励 将 不 必要 的 信息 全 都 存储 在 Lucene 的 索引 中 。 这 样 不 仅 会 浪费 存储 资源 ， 也 会 使 得 在 线 查询 变 得 缓慢 。 


“Store.NO: 不 存储 字段 值 。 如 果 一 个 字段 既 不 倒 排 索引 、 也 不 正 向 存储 ， 那 么 它 就 完全 失去 了 意义 。 因 此 ， 如 果 选 择 了 Store .NO ， 那 就 必须 要 和 Index.ANALYZED 或 IndexNOT_ANALYZED 共 同 使 
用 。 这 样 的 好 处 在 于 既 可 以 满足 查询 的 需求 ， 又 可 以 节约 硬件 资源 。 
































现在 的 搜索 引 警 ， 都 可 以 返回 和 查询 相关 的 原文 片段 ， 并 将 匹配 的 关键 词 用 不 同 的 背景 色 高 亮 显示 ， 如 图 4-5 所 示 。Lucene 同 样 可 以 实现 这 个 功能 ， 只 是 需要 存储 更 多 的 信息 。 词 条 向 量 就 是 为 了 达到 
这 个 目的 ， 而 采用 的 一 种 中 间 数 据 结构 。 如 果 需 要 用 到 高 亮 功 能 ， 就 需要 打开 WITH_POSITIONS_OFFSETS。 
























































川菜 中 一 道 著名 的 排骨 菜 ， 就 是 " 粉 蒸 排骨 "， 香 滑 软 糯 ， 而 且 不 是 太 辣 。 用 豆瓣 桨 和 资 油 将 排骨 腌 起 来 ， 
还 可 以 一 起 腌 上 五 花 肉 、 鸡 肉 、 牛 肉 等 ; 腌 上 一 大 倒 ， 放 在 冰箱 里 ;再 炒 上 一 大 锅 香喷喷 的 米粉 ， 吃 的 
时 候 将 肉 肉 囊 上 米粉 ， 扔 到 锅 里 蒸 一 蒸 ， 出 锅 就 是 枪手 菜 。 家 中 来 客人 的 时 候 ， 也 很 是 方便 。 


出 锅 后 黄金 灿烂 的 样子 ， 当 做 一 道 年 菜 很 得 体 、 很 有 面子 ! 
好 吃 不 辣 的 川菜 一 一 川 味 粉 蒸 排骨 


过 年 吃 蒸 菜 ， 寅 意 " 蒸 蒸 日 上 "， 似 乎 必 不 可 缺 ! 蒸 菜 可 以 蒸 "蔬菜 "， 也 可 以 蒸 鱼 、 蒸 肉 、 蒸 排骨 一 一 最 吸 
引 人 的 恐怕 是 蒸 排骨 了 ! 


图 4-5 ”搜索 引擎 中 的 关键 词 高 亮 显示 


























表 4-6 是 常用 的 选项 组 合 及 其 应 用 场景 。 

















表 4-6 ”选项 组 合 及 其 对 应 的 场景 


过 本 用 


ANALYZED YEs | WITH POSITIONS OFFSETS 文档 的 标题 和 摘要 
ANALYZED 一 WITH POSITIONS OFFSETS 文档 的 正文 


NO 
NOT ANALYZED 


另外 ， 


在 Lucene 中 ， 某 个 字段 也 可 以 包含 多 个 值 。 比 如 ， 一 篇 文章 可 能 有 多 位 作者 ， 
值 返回 的 顺序 也 将 保持 它们 在 索引 添加 时 的 顺序 ， 一 切 就 这 么 简单 。 


文档 配 图 的 链接 
文档 的 作者 和 ID 

















“那么 小 明 哥 ， 多 值 字段 为 什么 不 合并 在 一 起 成 为 一 个 值 ”感觉 多 值 字段 的 用 处 不 明显 啊 ” 











“大 宝 ， 你 仔细 想 想 ， 这 里 多 个 字段 若 合并 在 一 起 了 ， 和 多 值 字段 相 比 有 没有 查询 效果 、 存 储 及 性 能 上 的 区 别 呢 ?”” 


介绍 完 字 段 ， 再 来 看 下 文档 (Document) 。 文 档 是 Lucene 索 引 和 查询 的 最 基本 单位 ， 它 包含 了 一 个 或 多 个 字段 。 例 如 一 篇 文章 可 以 包括 4 个 字段 : 标题 、 正 文 、 作 者 和 日 期 。 之 所 以 使 











你 完全 没有 必要 为 了 5 个 作者 而 定义 5 个 不 同 的 字段 。 相 反 ， 你 只 需要 往 同一 个 字段 中 添加 多 个 值 ， 而 且 查询 时 这 些 









































“文档 ”这 

















个 名 词 ， 主 要 是 因为 Lucene 处 理 的 对 象 一 开始 都 是 文档 集合 。 值 得 一 提 的 是 ， 随 着 搜索 引擎 的 应 用 越 来 越 广泛 ， 被 索引 和 搜索 的 主体 便 不 再 局 限于 文档 了 。 只 要 是 能 通过 文本 字符 和 数字 表示 的 数据 ， 都 可 
以 成 为 Lucene 处 理 的 对 象 。 举 个 例子 ,我 们 可 以 将 网 站 的 用 户 作为 一 个 文档 ， 而 将 用 户 名 、 年 龄 、 性 别 、 职 业 、 兴 趣 爱 好 、 发 表 的 评论 作为 6 个 字段 。 这 样 ，Lucene 就 能 帮助 我 们 轻松 地 实现 对 用 户 及 其 相 
关 信 息 的 搜索 。 在 后 面 提 及 的 Solr 和 Elasticsearch 中 ， 文 档 同 样 是 宽泛 的 概念 。 



























































2. 相 关 性 和 倒 排 索引 


在 了 解 完 Lucene 中 字段 和 文档 的 概念 之 后 ， 我 们 来 看 看 Lucene 是 如 何 实现 相关 性 和 倒 排 索引 这 两 个 核心 要 素 的 。 首 先是 相关 性 衡量 ，Lucene 默 认 的 相关 性 得 分 计算 大 体 上 是 通过 向 量 空 

















(VSM) 来 实现 的 ， 又 融合 了 一 些 启发 式 的 规则 ， 具 体 公式 如 下 : 


> (xl in d) x idf (t) x boost (t.field in qa) xlengthNorm (t.field in d) x coord (9， d) x queryNorm( q) 


ting 








表 4-7 中 的 内 容 是 公式 各 部 分 所 表示 的 含义 。 





间 模 型 


表 4-7 公式 各 部 分 所 表示 的 含义 


f(tind) 单词 的 词 频 ， 即 ! 在 文档 4 中 出 现 的 频率 
idf () 单词 在 文档 集合 中 的 逆 文 档 频率 ， 用 来 衡量 /在 整个 集合 中 的 “唯一 ”性 


boost (t.field in d) 字段 和 文档 的 加 权 。 在 离线 的 索引 阶段 ， 可 以 针对 某 个 字段 和 文档 进行 加 权 
lengthNorm (t.field in d) 字段 归 一 化 的 值 。 如 果 字 段 越 短 ， 那 么 该 值 就 越 大 ， 获 得 的 加 权 也 越 大 
coord (gq, d) 协调 因子 ， 命 中 的 查询 条 件 越 多 ， 该 值 就 越 大 ， 获 得 加 权 也 越 大 

queryNorm (q) 查询 归 一 化 的 值 。 区 别 不 同 查询 条 件 的 权重 





其 中 tf 和 idf 的 机 制 ， 在 4.1.1 节 介绍 相关 性 模型 时 有 过 介绍 。Boost 实 现 了 不 同 字段 加 权 的 功能 。 除 了 这 些 基 本 的 要 素 之 外 ，Lucene 还 引入 了 如 下 几 个 关键 值 。 


“ 字段 归 一 化 〈lengthNorm) 。 因 为 Lucene 允 许 针对 不 同 的 字段 进行 查询 ， 那 么 在 标题 里 命中 “水 者 香 ” 和 在 长 篇 大 论 里 命中 “水 老 鱼 ”的 效果 肯定 是 不 一 样 的 。 在 Lucene 里 会 设 定 字段 长 度 越 短 ， 相 关 
性 越 高 。 因 此 ， 如 果 有 文档 在 标题 里 命中 关键 词 ， 那 么 它 的 搜索 排名 肯定 是 高 于 其 他 在 正文 里 命中 关键 词 的 文章 。 


“ 协调 因子 (coord) 。 对 于 有 多 个 查询 关键 词 或 条 件 ) 的 搜索 ，Lucene 会 假设 命中 的 关键 词 越 多 ， 相 关 性 越 高 。 例 如 ， 搜 索 “ 上 海水 老 鱼 餐厅 ”， 文 档 “ 上 海 有 哪些 餐厅 的 水 都 鱼 味道 很 棒 ” 会 匹配 
上 全 部 3 个 关键 词 ， 而 “ 川 味 水 孝 鱼 的 由 来 ”只 匹配 上 1 个 关键 词 。 这 样 前 一 篇 的 排名 应 该 更 高 。 


“ 查询 归 一 化 (queryNorm) 。Lucene 假 设 包含 多 个 条 件 的 查询 中 ， 每 个 条 件 的 权重 都 可 以 不 一 样 。 例 如 ， 搜 索 “ 上 海水 者 鱼 餐厅 ”时 ， 我 们 设 定 “ 水 煮 鱼 ”是 重要 性 最 高 的 条 件 。 那 么 “ 川 味 水 孝 鱼 的 
由 来 ”的 排名 可 能 会 比 “上 海 有 哪些 餐厅 味道 很 棒 ” 的 更 高 。 








从 4.0 版 本 开始 ，Lucene 就 将 排序 相关 的 算法 与 向 量 空间 模型 解 厢 ， 提 供 了 其 他 模型 的 基本 实现 ， 包 括 最 佳 匹 配 Okapi BM 25、 随 机 分 歧 (Divergence from Randomness) 、 语 言 模型 和 基于 信息 量 
的 模型 等 。 当 然 ， 最 重要 的 一 点 是 : 不 要 忘记 Lucene 是 开源 的 哦 。 这 就 意味 着 我 们 可 以 根据 需要 自行 修改 这 些 计算 逻辑 ， 甚 至 是 完全 实现 一 套 新 的 模型 。 



































除了 相关 性 ， 另 一 个 核心 要 素 就 是 倒 排 索引 。 下 面 来 看 下 Lucene 有 哪些 重要 模块 涉及 倒 排 索引 的 构建 和 查询 。 





首先 来 看 离线 部 分 。 


“ 分析 器 (Analyzer) : 如 果 一 个 字段 设置 了 ANALYZED， 那 么 其 值 在 被 索引 之 前 ， 都 会 经 过 分 析 器 的 处 理 。 它 负责 从 文本 中 提取 单词 ， 增 加 同 义 / 扩 展 词 ， 过 滤 掉 停 用 词 等 无 用 信息 。 还 有 一 些 基于 特 
定语 言 的 操作 也 会 在 此 完成 。 例 如 英文 的 词 干 抽取 、 归 一 化 ， 中 文 的 分 词 等 。Lucene 对 拉丁 语系 的 支持 较 好 ， 自 带 不 少 分 析 器 而 且 默认 功能 较为 齐全 ， 但 是 对 中 文 分 词 的 支持 较 弱 。 幸 运 的 是 ，Lucene 有 良 
好 的 开放 性 ， 建 议和 第 1 章 类 似 ， 考 虑 集成 IKAnalyzer、ANSJ 这 样 的 开源 分 词 包 。 需 要 说 明 的 是 ， 分 析 器 不 仅仅 能 在 离线 部 分 使 用 ， 在 线 搜 索 时 ， 查 询 的 分 析 也 需要 它 。 通 常 ， 我 们 需要 保持 离线 索引 和 在 线 
查询 的 分 析 器 一 致 ， 以 免 出 现 无 法 匹配 的 越 坎 。 


“ 索引 器 (IndexWriter) : 这 是 倒 排 索引 过 程 中 的 核心 组 件 ， 负 责 创建 新 索引 或 打开 已 有 的 索引 ， 以 及 向 索引 中 添加 、 删 除 或 更 新 文档 。 这 个 过 程 也 会 根据 字段 的 选项 设 定 来 决定 每 个 字段 值 是 否 被 索 
引 、 是 否 被 存储 等 。 


接着 来 看 看 在 线 部 分 。 


“ 查询 解析 器 (QueryParser) : 如 4.1.1 节 所 述 ， 布 尔 表 达 式 是 构建 查询 语句 的 基础 。 可 是 ， 随 着 应 用 需求 的 日 益 复 杂 ， 写 一 个 超 长 的 表达 式 对 于 普通 人 而 言 实在 是 太 痛苦 了 。Lucene 的 查询 解析 器 给 使 
用 者 们 带 来 了 福音 ， 它 允许 用 户 使 用 形式 更 为 自由 的 查询 语言 。 看 看 这 个 例子 吧 “上 海 AND 餐 厅 AND 酸 菜 鱼 AND ( 粉 蒸 排 骨 OR 干 锅 牛 蛙 OR 手 括 包 菜 ) ”。 对 于 查询 解析 器 而 言 ，“+ 上 海 + 餐 厅 + 酸 菜 
鱼 +( 粉 花 排 骨干 锅 牛 蛙 手 撕 包 菜 ) ”， 这 种 简单 的 表述 就 能 接受 ， 它 会 自动 蔡 你 转换 为 最 终 的 表达 式 。 当 然 ， 查询 解析 器 的 功能 非常 强大 ， 还 可 以 支持 指定 字段 的 查询 、 动 态 增强 得 分 、 模 糊 匹 配 等 。 





“ 搜索 器 (IndexSearcher) : 搜索 器 将 以 只 读 的 方式 ， 打 开 由 索引 器 构建 的 索引 ， 并 进行 查询 ， 计 算 相 关 性 得 分 。 通 常情 况 下 只 需要 一 个 搜索 器 的 实例 就 能 满足 所 有 的 搜索 请 求 。 只 在 索引 有 所 更 新 时 ， 
才 需 要 重新 打开 新 的 搜索 器 实例 。 


3. 扩 展 功能 





























Lucene 之 所 以 如 此 流行 ， 是 因为 了 除了 上 述 搜索 引 警 的 基本 要 素 之 外 ， 它 还 具有 不 少 扩展 的 功能 。 下 面 列举 几 个 主要 的 扩展 功能 。 





























(1) 多 样 化 查询 








“ 范围 查询 : 除了 文本 ，Lucene 还 可 以 针对 数字 和 日 期 设置 索引 ， 并 且 针 对 它们 提供 的 范围 进行 查询 。 例 如 查询 阅读 量 超 过 1 万 的 博客 文章 ， 或 者 是 查询 价格 在 100 元 到 1000 元 之 间 ， 并 且 3 天 之 内 就 要 下 
架 的 商品 ， 诸 如 此 类 。 


“ 词组 查询 ; 还 记得 布尔 模型 里 的 邻近 操作 (Proximity) 吗 ? 词组 查询 是 一 种 实现 方式 ， 而 且 我 们 可 以 设置 邻近 的 单词 间距 。 

前缀 查询 ; 使 用 指定 开头 的 字符 串 作 为 搜索 条 件 ， 然 后 查询 匹配 的 文档 。 

“ 通 配 查询 : 使 用 包含 通配符 的 字符 串 作 为 搜索 条 件 。Lucene 常 用 的 通配符 有 : “*” 代 表 0 个 或 多 个 字母 ，“? ”代表 0 个 或 1 个 字母 。 例 如 ， 搜 索 “ 酸 *”， 酸 菜 、 酸 豆角 、 酸 不 溜 秋 都 会 匹配 上 。 
. 模糊 查询 : 根据 字符 串 的 编辑 距离 (Edit Distance) ， 支 持 单词 部 分 匹配 的 查询 。 


(2) 过 滤 查 询 



































过 滤 查 询 是 Lucene 用 于 缩小 搜索 空间 的 机 制 。 和 普通 查询 有 所 不 同 ， 过 滤 查 询 不 会 计算 相关 性 得 分 。 也 正 是 因为 如 此 ， 其 计算 速度 要 快 于 普通 查询 。 所 以 ， 它 适用 于 无 须 考虑 相关 性 的 场景 。 例 如 ， 我 
们 要 查找 性 别 为 男性 、 年 龄 在 25 岁 和 50 岁 之 间 、 家 有 子女 的 用 户 。 这 里 只 需要 考虑 “满足 ”或 “不 满足 ”三 个 过 滤 条 件 即 可 。 




































































(3) 高 亮 显示 





Lucene 提 供 的 高 亮 模块 能 够 拆 分 和 高 亮 显 示 查 询 的 关键 词 。 它 主要 包括 两 个 功能 : 首先 是 从 匹配 搜索 查询 的 大 量 文本 中 选取 一 小 部 分 句子 ， 也 就 是 我 们 通常 所 说 的 片段 (Snippet) ;然后 是 从 文本 上 
下 文中 提取 特殊 的 单词 ， 用 特殊 的 彩色 背景 来 标识 它们 。 这 样 ， 很 快 就 可 以 将 注意 力 集中 到 这 些 要 点 上 ， 提 高 了 阅读 效率 ， 也 增强 了 搜索 的 用 户 体验 。 如 前 所 述 ， 为 了 使 用 该 功能 ， 需 要 字段 开启 词 条 


向 量 。 






























































(4) 空间 搜索 








在 过 去 的 几 年 中 ，Web 搜 索 从 找寻 基本 的 网 页 转 为 找寻 某 些 垂直 领域 的 特定 结果 。 其 中 很 热门 的 一 项 就 是 地 域 的 查询 ， 例 如 查询 离 我 们 最 近 的 餐厅 、 影 院 和 理发 店 等 。Lucene 的 扩展 包 已 经 可 以 支持 这 
























































个 需求 ， 使 得 用 户 可 以 通过 提交 基于 地 域 的 信息 来 对 数据 对 象 进行 搜索 。 空 间 搜索 面临 的 最 大 挑战 就 是 ， 对 于 每 次 查询 而 言 ， 用 户 的 起 点 都 会 有 所 不 同 。 
态 处 理 。Lucene 在 这 些 方面 做 了 不 少 性 能 上 的 调 优 。 









































进入 2016 年 ，Lucene 的 最 新 版 本 已 经 更 新 到 6.3， 主 要 在 易 用 性 、 维 护 操作 、 分 布 式 集群 等 方面 进行 了 改进 ， 并 且 进 行 了 架 
言 ，Lucene 是 相当 不 错 的 搜索 引擎 核心 库 。 不 过 对 于 成 熟 的 商业 应 用 而 言 ， 其 功能 比较 有 限 。 有 许多 著名 的 开源 项 目 是 基于 Lucene 的 实现 ， 它 们 
(Facet，Lucene 4.0 之 后 也 开始 提供 此 项 功能 ) 
F 比 较 流行 的 Solr 和 Elasticsearch。 
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Aggregation) 、 切 
例 。 下 面 来 介绍 近 几 年 








4.5.2 Solr 简 介 





此 必须 在 索引 和 查询 期 间 使 











空间 逻辑 来 进行 动 




















交 解 厢 ， 让 索引 结构 可 定制 化 和 透明 化 ， 并 向 搜索 框架 方向 发 
F 富 的 搜索 引擎 功能 ， 例 如 聚合 (Grouping or 
、 索 引 复 制 (Replication) 和 分 片 (Sharding) 等 。Solr、Elasticsearch、Hibernate Search、LinkedIn 的 Zoie 都 是 其 中 成 功 的 案 














新 增 了 更 为 








展 。 总 体 而 











Solr (http://lucene.apache.org/solr/) 是 一 个 高 性 能 、 基 于 Lucene 的 全 文 搜索 | 
优化 ， 提 供 了 一 个 完善 的 功能 管理 界面 ， 是 一 款 非 常 优秀 的 全 文 搜索 引擎 。 从 Solr 4.0 
文档 和 字段 的 概念 、 相 关 性 模型 、 各 种 模式 的 查询 等 。 这 里 主要 说 下 Solr 的 增强 部 分 。 
































1. 基 础 功能 


肛 务 器 。 它 提供 了 比 Lucene 更 为 丰富 的 查询 语言 ， 实 现 了 文档 集合 可 配置 ， 架 构 可 扩 ) 
始 ， 其 版 本 和 它 所 集成 的 Lucene 版 本 是 绑 定 的 ， 目 前 Solr 的 最 新 版 本 也 是 6.3。Solr 继 承 了 Lucene 的 很 多 要 素 ， 包 括 




















首先 ， 增 加 了 RESTFUL (Representational State Transfer) 接 | 
可 以 更 简洁 ， 更 有 层次 ， 更 易于 实现 缓存 等 机 制 。 例 如 下 | 


。RESTFUL 是 软件 架构 的 一 种 风格 ， 提 供 了 一 组 设计 原则 和 约束 条 件 ，/ 
的 递 进 式 链接 就 非常 容易 理解 : 





























H 











在 集 


Get http://localhost:8983/solr/collectionl/select/ 
在 集 


Get http://localhost:8983/solr/collectionl/update/ 
Get http://localhost:8983/solr/collectionl/replication/ 


合 1 中 查询 
合 1 中 更 新 
复制 集合 1 中 的 索引 数据 





其 次 ， 通 过 配置 文件 ， 方 便 快 捷 地 设置 搜索 引擎 。Lucene 虽 然 提 供 了 索引 和 查询 的 功能 ， 但 是 几乎 都 是 需要 进行 编码 才 | 
效果 呢 ? Solr 提 供 了 这 种 可 能 。 是 其 中 最 基础 的 3 个 文件 。 








H 











' schemaxml: 用 于 定义 某 种 文档 类 型 的 所 有 字段 ， 及 其 类 型 、 


<field name="id" type="string" indexed="true" stored="true" required="true" /> 
<field name="title" type="chinese ik" indexed="true" stored="true" /> 

<field name="picture" type="string" indexed="false" stored="true" /> 

<field name="price" type="float" indexed="true" stored="true" /> 

<field name="type" type="int" indexed="true" stored="false" /> 































上 面 chinese _ik 是 根据 开源 中 文 分 词 包 IKAnalyzer 自 定义 的 分 析 器 。schema.xml 里 还 可 以 定义 各 种 语言 的 分 析 器 和 
是 ， 从 Solr 5.0 的 版 本 开始 ，schema.xml 被 managed-schema 所 替代 ， 在 稍 后 的 实战 部 分 会 详细 介绍 。 























定义 的 相似 度 [0。Solr 会 


分 析 方式 、 存 储 选 型 等 ， 包 括 后 面 提 及 的 动态 字段 和 复制 字段 。 下 面 是 一 段 示例 : 











动 将 这 些 转换 为 Lucene 











客户 端 和 服务 器 交互 类 的 软件 。 基 


本 


展 的 功能 ， 并 对 查询 性 能 进行 了 





F 这 种 风格 设计 的 软件 


能 完成 ， 对 专业 知识 的 要 求 过 高 。 你 有 没有 设想 过 通过 编辑 文本 就 能 达到 类 似 的 


对 应 的 程序 代码 。 值 得 注意 的 





“solrconfig.xml: 定义 索引 和 查询 里 的 常用 参数 ， 以 及 各 种 自 定义 的 RESTFUL 风 格 接口 。 例 如 索引 阶段 如 何 提交 更 新 、 数 据 写 入 哪些 目录 ; 查询 阶段 搜索 哪些 字段 、 缓 存 设置 成 多 大 、 默 认 的 布尔 操作 


' solfxml: 定义 管理 、 日 志 、 


第 三 个 增强 的 功能 是 支持 动态 字段 (Dynamic Field) 和 复制 字段 (Copy Field) 。 








固 








动态 字段 是 指 在 Solr 的 Schema 中 没有 固定 名 称 的 字段 ， 它 的 名 称 是 由 若 
成 功 ， 那 么 这 个 字段 将 使 用 该 动态 字段 的 定义 。 动 态 字 段 可 以 让 系统 更 灵活 ， 通 
































性 更 强 。 例 如 ， 如 果 将 下 一 个 动态 字段 设 定 为 : 











<dynamicField name=“\* name” type="“string” indexed=“true” store=“true” /> 














那么 我 们 可 以 在 索引 时 生成 很 多 Chinese_name、English_name、Russian_name 这 样 的 字段 ， 而 且 它们 都 统一 采 上 





分 片 和 SoltCloud 的 分 布 式 集群 。solrxml 和 solrconfigxml 的 很 多 设置 都 已 经 超出 了 Lucene 的 能 力 范围 ， 都 是 针对 Solr 增 强 功能 的 设置 。 




















Solr 的 字段 复制 机 制 ， 可 以 将 多 个 不 同类 型 的 字段 集中 到 一 个 字段 。 复 制 主要 涉及 两 个 概念 ， 


<dynamicField name=“* name” type="“string” indexed=“true” store=\true” /> 
<field name=“names” type="“string” indexed="“true” store="“false” /> 
<copyField source=\* name” dest=“names” /> 








注意 斜体 加 粗 的 部 分 ， 这 会 将 各 种 语言 的 名 字 ， 统 统 复制 到 names 这 个 字段 中 。 





0 











2 
为 核心 (Core) 。 一 个 核心 代表 一 个 独立 的 文档 集合 ， 这 些 独立 的 文档 集合 都 有 自己 独立 的 schema.xml 和 solrconfig.xml 配 置 。 因 
上 ,一 个 核心 等 于 一 个 文档 集合 。 在 SolrCloud 上 ， 一 个 文档 集合 是 由 分 布 在 不 同 节点 的 核心 组 成 的 ， 但 是 一 个 文档 集合 仍然 是 一 个 逻辑 索引 ， 它 
言 之 ， 一 个 核心 包含 一 个 物理 索引 ， 而 一 个 文档 集合 则 是 由 分 布 在 不 同 节点 上 的 核心 组 合 而 成 的 ， 从 而 提供 一 个 逻辑 索引 。 






































通配符 来 表示 的 。 在 索引 文档 时 ， 一 个 字段 如 果 在 schema 的 常规 字段 中 没有 定义 ， 那 么 它 将 和 动态 字段 进行 匹配 。 如 果 匹 配 


的 是 type= “string”indexed= “true”store= “true” 的 设 定 。 


source 和 destination， 一 个 是 要 复制 的 字段 ， 另 一 个 是 要 复制 到 哪个 字段 。 比 如 : 


个 增强 的 功能 为 多 租户 (Multi-tenancy) 。 基 本 概念 是 在 同一 个 Solr 服 务实 例 上 ， 实 现 同时 可 运行 多 个 索引 的 建立 和 查询 操作 。Solr 是 利用 不 同 的 文档 集合 (Collection) 来 实现 的 ， 配 置 里 称 之 
为 这 些 核心 在 同一 个 Solr 实 例 中 ， 硬 件 资 


原 是 共享 的 。 在 单 节点 的 solr 





由 不 同 的 核心 所 包含 的 不 同 

















后 进行 索引 。 
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第 五 是 增加 了 DIH (Data Import Handler) 模块 。 这 是 Solr 的 一 项 特色 ，DIH 扩 展 可 以 将 多 种 外 在 的 数据 源 直 接 导入 到 Solr 然 


只 


要 是 提供 了 JDBC (Java DataBase Connectivity) 的 数 











据 ， 都 可 以 和 DIH 配 合 工作 ， 例 如 Oracle、MySQL、 微 软 的 SQL Server 等 。 你 只 需要 提供 数据 库 连 接 的 参数 ， 还 有 SQL 语句 ，DIH 就 能 














分 片 (shards) 四 组 成 的 。 换 


动 查询 数据 库 ， 然 后 将 结果 集合 转 为 Solr 中 的 文档 来 索引 。 

















最 后 ，Solr 相 对 于 Lucene 和 Elasticsearch 而 言 ， 最 强大 的 地 方 在 于 其 可 视 化 的 界面 ， 用 它 可 以 管理 和 监控 整个 集群 的 运行 状况 。 




















H 











4-6 是 管理 界面 


的 3 











FE 页 示意 





























错 、SolrCloud 集 群 状态 、 管 理 多 租户 (多 核心 ) 、 缓 存 配置 等 。 这 些 对 于 初学 者 而 言 ， 非 常人 性 化 和 直观 ， 使 得 Solr 上 手 的 门槛 更 低 。 

















。 从 中 你 可 以 查看 整体 概况 、 日 志 报 


是 Instance 面 System 1.02 1.15 1.25 如 


Eo 
DO r < @ Start about 19 hours ago Physical Memory 93.1% 


坊 solr-spec 4.8.1 14.49 GB 


国 Logging 15.57 GB 
a Cloud solr-impl 4.8.1 1594670 - rmuir - 2014-05-14 19:38:41 Swap Space 1.6% 


pe 性 lucene-spec 4.8.1 
Ann lucene-impl 4.8.1 1594670 - rmuir - 2014-05-14 19:22:52 128.34 MB 


朋 Java Properties 8.00 GB 
县 Thread D' File Descriptor Count 0.1% 
read Dump 


ss 


100000 


守 紫 


Core Selector ~ 125| 


县 JVM mw JVM-Memory 71.7% 


县 Runtime Oracle Corporation Java HotSpot(TM) 64-Bit Server VM (1.7.0_65 24.65-b04) 


国 Processors 8 
国 Args -Djava.io.tmpdir=/opt/product-tomcat-7.0.52/temp 4.25 GB yp 
-Dcatalina.home=/opt/product-tomcat-7.0.52 


5.94 CB 
-Dcatalina.base=/opt/product-tomcat-7.0.52 
-Djava.endorsed.dirs=/opt/product-tomcat-7.0.52/endorsed 
-Xmx6g 
-Xms6g 
-XX:MaxTenuringThreshold=3 
-XX:+CMSIncrementalMode 
-XX:+CMSParallelRemarkEnabled 
-XX:+UseParNewGC 
-XX:+UseConcMarkSweepGC 
-Dbootstrap_confdir=/opt/solr-4.8.1-product/fn_product/solr/product/conf 
-DnumShards=1 
-DzkHost=10.201.130.123:2288,10.201.130,124:2288,10.201.130.125:2288,10.201.13... 
-Dcollection.configName=product 
-Djava.util.logging.manager=org.apache.juli.ClassLoaderLogManager 
-Djava.util.logging.config.file=/opt/product-tomcat-7.0.52/conf/logging.properties 
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4-6 Solr 主 界面 的 Dashboard 

















当然 ， 这 些 还 不 是 全 部 。 除 了 上 述 的 要 点 之 外 ，Solr 还 有 几 大 重点 功能 在 实际 应 用 会 经 常 采 用 ， 下 面 分 别 详细 介绍 : 切面 (Facet) 、 聚 合 (Grouping) ， 以 及 分 布 式 架构 。 




















2. 切 面 和 聚合 


将 Solr 和 传统 的 数据 库 ， 以 及 NoSQI 数 据 存储 进行 比较 时 ， 你 会 发 现 切 面 是 Solr 中 一 个 强大 的 功能 BJ。 让 我 们 先 来 看 一 个 生活 中 的 例子 。 从 图 4-7 可 以 看 出 ， 当 你 在 一 个 购物 网 站 上 搜索 “男士 时， 你 
希望 看 到 更 多 的 选项 来 过 滤 结 果 。 左 侧 方 框 标 出 的 更 多 细 分 男士 用 品 的 分 类 ， 包 括 面部 护肤 品 、 服 装配 饰品 、 男 士 服装 等 。 而 右上 侧 的 方 框 标 出 的 则 是 更 多 细 分 的 导购 属性 ， 例 如 品牌 、 尺 码 、 价 格 等 。 然 
后 你 就 能 选择 分 类 ， 或 者 是 选择 属性 ， 进 一 步 缩小 商品 的 范围 了 。 例 如 选择 “ 剃 须 刀 ”， 返 回 的 商品 就 会 发 生变 化 ， 而 且 相应 的 导购 属性 也 会 随 之 发 生变 化 ， 如 图 4-8 所 示 。 这 些 都 是 切面 产生 的 神奇 功效 。 
切面 的 搜索 ， 你 可 以 理解 为 “多 个 方面 的 浏览 ”， 它 允许 用 户 在 搜索 集合 上 ， 看 到 一 个 高 层次 的 过 滤 条 件 和 相应 的 统计 ， 然 后 用 户 可 以 选择 过 滤 条 件 ， 进 一 步 缩小 搜索 的 范围 。 














































































男士 商品 第 选 ( 共 621.6 万 个 商品 ) 
品牌 : 飞利浦 (PHILIPS) 
金 颖 独 (FOXER) 
博 骨 (BRAUN) 


七 匹 狼 (SEPTWOLVE... 
铀 鱼 伪 (CROCODILE) 
美 特 斯 邦 威 (metersbo 





花花 公子 (PLAYBOY) 
海 澜 之 家 (HEILAN H.,， 
皮尔 卡 丹 【plerre cardi.,， 


丹 杰 仕 (DANJIESHI) 
“和 (FLYCO) 
和 和 草 人 (MEXICAN) 


金利 来 (Goldllon) 
SXLLNS 
战地 吉普 (AFS JEEP) 

















































查看 更 多 v : 34 





35 36 36.5 37 38 38.5 39 39.5 40 40.5 41 42 42.5 








价格 : 0-69 70-199 200-399 400-699 700-899 900 以 上 确定 





服饰 配件 
男士 腰带 / 礼 售 
太阳 镜 
查看 更 多 v 













; 2015 年 2014 年 2013 年 
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图 4-7 在 某 网 站 上 搜索 “男士 ”的 结果 
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图 4-8 在 “男士 ”搜索 结果 中 ， 选 择 电动 剃 须 刀 分 类 后 的 效果 
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结果 的 聚合 (Grouping) 是 Solr 中 另 一 个 很 有 价值 的 功能 ， 它 可 以 保证 为 用 户 的 查询 返回 最 佳 的 结果 组 合 。 其 远 辑 是 根据 一 个 值 内 将 结果 进行 分 组 。 图 4-9 就 展示 了 一 个 非常 经 典 的 应 用 场景 。 
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图 4-9 ”将 同 款 中 不 同 颜色 的 服饰 聚合 在 1 个 展示 位 

















我 们 在 电 商 网 站 挑选 服饰 类 商品 时 ， 常 常 可 以 在 列表 页 就 能 预览 到 不 同 的 颜色 。 实 际 上 ， 同 一 款 服装 ， 其 在 后 台 索 引 数 据 中 是 通过 多 个 文档 来 表示 的 。 例 如 图 4-10 中 的 TI 地 衫 ， 一 共有 5 种 颜色 ，5 个 库 
存量 ， 那 么 文档 对 象 也 是 5 个 。 如 果 直 接 搜 索 返回 ， 就 会 发 现 同一 件 衣服 占据 了 5 个 展示 位 ， 不 仅 浪 费 了 黄金 般 的 展示 机 会 ， 也 让 顾客 挑选 无 从 下 手 ， 体验 很 糟糕 。 这 个 时 候 ， 按 照 唯一 的 款式 码 字段 做 
一 次 聚合 ， 就 能 将 不 同 颜色 的 同样 一 款 服 装 归 并 到 同一 个 组 中 ， 前 端 展示 就 非常 容易 了 。 大 致 的 聚合 结果 类 似 于 : 


















































"男装 ”- 100 件 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 


























目前 Solr 还 不 支持 多 层级 的 聚合 ， 大 的 聚合 中 无 法 再 次 进行 小 的 聚合 。 另 外 需要 注意 的 一 点 是 ， 聚 合 和 去 重 功能 有 所 不 同 。 聚 合 会 保留 同一 组 的 结果 集合 (通常 也 不 是 完全 相同 ) ， 而 去 重 则 会 将 完全 
一 样 的 重复 数据 去 除 ， 不 再 返回 匈 余 文档 ， 保 证 唯一 性 。 当 然 ， 你 也 可 以 通过 自 定义 将 聚合 用 于 去 重 。 






































读者 可 能 已 经 发 现 ， 切 面 和 聚合 是 非常 类 似 的 。 切 面 的 查询 结果 主要 是 分 组 信息 : 有 什么 分 组 ， 每 个 分 组 包括 多 少 个 文档 ; 但 是 分 组 中 包含 哪些 具体 的 数据 是 不 可 知道 的 ， 只 有 进一步 搜索 。 这 也 保证 
了 切面 查询 速度 是 相当 快 的 ， 对 性 能 的 消耗 也 很 小 。 聚 合 则 类 似 于 关系 数据 库 中 的 group by， 可 以 用 于 一 个 或 几 个 字段 的 去 重 ， 或 者 显示 一 个 分 组 的 若干 条 记录 等 。 不 过 这 也 导致 聚合 操作 相当 耗费 性 能 ， 
此 要 结合 业务 场景 来 选择 ， 慎 重 使 用 。 










































































3 .分布 式 架构 
































Solr 的 命名 来 自 Search On Lucene w/Replication， 可 见 其 非常 注重 系统 的 容错 性 和 扩展 性 ， 这 也 是 Lucene 所 不 具备 的 。 因 此 ， 我 们 一 定 要 阐述 清楚 Solr 分 布 式 架构 的 理念 。 先 来 看 看 分 布 式 系统 里 最 
基本 的 两 个 概念 : 分 片 和 副本 。 




















“ 分 片 (Sharding) : 当 拥 有 大 量 的 文档 时 ， 由 于 内 存 和 硬 慢 处 理 能 力 的 限制 ， 单 台 机 器 可 能 无 法 快速 地 响应 客户 端的 请 求 。 在 这 种 情况 下 ， 数 据 可 以 切 分 为 较 小 的 部 分 ， 称 之 分 片 。 在 Solr 系 统 中 ， 每 
个 分 片 都 是 可 以 独立 运作 的 Lucene 索 引 。 每 个 分 片 可 以 放 在 不 同 的 服务 器 上 ， 并 且 可 以 在 集群 中 传播 。 当 需要 查询 的 索引 分 布 在 多 个 不 同 的 分 片上 时 ， 分 布 式 系统 会 将 查询 分 发 给 每 个 相关 的 分 片 ， 并 将 结 
果 合 并 在 一 起 。 这 些 对 上 层 应 用 方 而 言 都 是 透明 的 ， 它 们 并 不 知道 底层 发 生 了 什么 。 


“ 副本 (Replication) : 为 了 提高 吞吐 量 或 实现 高 可 用 性 ， 可 以 使 用 副本 。 副 本 是 一 个 数据 集 的 精确 复制 ， 通 常 和 分 片 结合 使 用 。 因 此 ， 每 个 分 片 都 可 以 有 多 个 副本 ， 万 一 有 机 器 出 现 故 障 ， 上 面 的 若干 
分 片 无 法 提供 服务 时 ， 集 群 会 主动 查找 其 他 正常 机 器 上 该 分 片 的 副本 。 








在 利用 分 片 和 副本 的 概念 搭建 的 分 布 式 环境 下 ， 索 引 和 查询 的 过 程 会 有 所 变化 。 索 引 阶段 增加 了 一 个 更 新 传播 的 过 程 。 当 给 集群 发 送 一 个 新 的 文档 时 ， 接 收 到 变化 的 机 器 A 就 会 知道 该 文档 应 该 放 入 哪 
个 分 片 ， 而 且 该 分 片 还 分 散在 哪些 其 他 的 机 器 上 。 这 样 更 新 的 文档 就 可 以 分 发 到 合适 的 机 器 上 (也 可 能 包括 A 自 己 ) ， 从 而 对 分 片 进行 更 新 。 图 4-10 是 该 过 程 的 示意 图 。 



























































在 查询 阶段 ，Solr 增 加 了 一 个 结果 合并 的 过 程 。 收 到 查询 请 求 的 机 器 A， 会 将 查询 转发 给 保存 了 指定 索引 分 片 的 所 有 其 他 机 器 ， 要 求 它 们 (也 可 能 包括 A 自 己 ) 进行 查询 并 返回 相应 的 结果 。 收 到 所 有 返 
回 之 后 ， 机 器 A 将 对 它们 进行 合并 ， 包 括 去 重 、 排 序 等 ， 然 后 将 最 终 的 结果 返回 给 客户 。 图 4-11 是 该 过 程 的 示意 图 。 













































































可 能 有 读者 会 说 ， 分 布 式 环境 导致 索引 和 查询 都 变 得 更 复杂 了 。 确实 如 此 ， 不 过 ， 好 在 Solr 这 样 的 分 布 式 系统 都 蔡 你 实现 好 了 ， 对 应 用 开发 者 而 言 ， 这 些 都 是 透明 不 可 见 的 ， 大 家 通常 不 用 关心 其 中 的 


细节 。 























Solr 机 器 A 


1. 索引 请 求 







2. 转发 索引 
请 求 到 相关 
的 其 他 机 器 Solr 机 器 C 国 Solr 机 器 D… 


分 片 2 的 
副本 2 


Te) [eS 











4-10 分布 式 环境 中 分 发 索引 的 更 新 请 求 











Solr 机 器 A 






2. 转发 查询 请 求 到 
相关 的 其 他 机 器 












4. 返回 合并 后 
的 查询 结果 






3. 各 机 器 返回 
查询 结 


查询 分 发 阶段 
一 Solr 机 器 E 


结果 合并 阶段 
---- 人 








图 4-11 分布 式 环境 中 分 发 查询 的 请 求 ， 并 合并 查询 结果 








在 Solr 4.0 版 本 之 前 ，solr 的 分 布 式 系统 都 是 通过 Master-Slave 架 构 来 实现 的 ， 由 专门 的 Master 服 务 器 来 转发 索引 更 新 的 请 求 ， 实 现 简单 但 是 存在 单 点 故障 ， 万 一 Master 宕 机 ， 那 么 整个 集群 都 将 无 法 
更 新 。Solr 从 4.0 开 始 ， 提 供 了 一 个 新 的 分 布 式 架 构 一 一 SolrCloud， 利 用 ZooKeeper 来 管理 机 器 中 的 机 器 节点 。ZooKeeper 会 蔡 集 群 选 出 一 位 leader 角 色 进 行 更 新 请 求 的 分 发 。 当 leader 宕 机 
后 ，ZooKeeper 会 从 剩余 还 存活 的 机 器 中 再 次 自动 选举 出 leader， 以 消除 单 点 故障 的 隐患 。 


















































4.5.3 ”Elasticsearch 简 介 





























Elasticsearch 是 一 个 基于 Lucene 的 搜索 服务 器 ， 也 是 采用 Java 开 发 的 ， 它 的 源码 作为 Apache 许 可 条 款 下 的 开放 源码 发 布 ， 同 样 是 流行 的 企业 搜索 引擎 之 一 。 设 计 目 标 是 达到 实时 搜索 ， 优 点 是 稳定 、 
可 靠 、 快 速 ， 安 装 使 用 方便 ， 截 至 本 章 写作 之 时 ， 其 最 新 版 已 经 更 新 到 5.1。 和 Solr 一 样 ，Elasticsearch 也 是 基于 Lucene 的 架构 ， 因 此 很 多 要 素 都 是 一 脉 相 承 的 ， 例 如 文档 和 字段 的 概念 、 相 关 性 的 模型 、 各 
种 模式 的 查询 等 。 相 对 于 Lucene 而 言 ，Elasticsearch 增 加 了 更 多 RESTFUL 风 格 的 接口 ， 用 JSON 格 式 传输 数据 ， 支 持 动态 映射 ， 是 一 个 分 布 式 的 、 多 租户 模式 的 搜索 引擎 。 













































































* RESTFUL (Representational State Transfer) 接口 : 与 Solt 类 似 ，Elasticsearch 允 许 用 户 通 过 RESTFUL 风 格 的 链接 对 其 搜索 引擎 进行 操作 。 例 如 下 面 的 递 进 式 链接 就 非常 容易 理解 。 





Get http://localhost:9200/ 获取 Elasticsearch 的 基本 





Get http://localhost:9200/_clouster/state/nodes/ 获取 集群 中 节点 的 人 
Get http://localhost:9200/_cluster/nodes/_shutdown 向 集群 中 的 所 有 节点 发 送 " 关 闭 “ 的 命令 。 





.JSON (JavaScript Object Notation) 格式 : 不 像 Solr 那 样 支持 较 多 的 格式 ，Elasticsearch 基 本 上 是 以 JSON 为 数据 传输 的 格式 ， 其 他 格式 则 需要 额外 插件 的 支持 。JSON 是 一 种 轻 量 级 的 数据 交换 格式 ， 其 完 
全 独立 于 具体 的 计算 机 语言 ， 能 够 跨 平 使 用 。 这 些 特性 使 得 SON 易 于 人 们 阅读 和 编写 ， 同 时 也 易于 机 器 进行 高 速 的 解析 、 生 成 和 传输 ， 因 此 JSON 成 为 理想 的 数据 交换 语言 。 例 如 ， 一 篇 关于 美食 的 文章 就 
可 以 长 成 这 样 : 





mid" : "10012" 
" 论 /) 


"title" :" 论 八大 菜系 之 川菜 "， 
"authors"™ : [" 张 三 "， n 李 四 "， " 王 五 "] ， 
"date" : "2015.08.20" 








JSON 还 能 够 支持 层次 型 的 数据 结构 ， 例 如 : 





nr 3 YLOOL2n7 
"title" ;" 论 八大 菜系 之 川菜 "， 
Us 3 | 





name" " 李 四 "， 
gender" 风向 
age" : 5 


"gender" 男 "， 
"age" 28 

]， 

"date" : "2015.08.20" 
































相应 地 ，Elasticsearch 也 提供 了 对 多 层次 底 套 型 数据 索引 的 支持 ， 这 是 基础 Lucene 所 不 具备 的 。 


“ 映射 (Mapping) : 类 似 于 Solr 的 schema， 用 来 定义 不 同 字段 的 基础 类 型 、 索 引 分 析 、 存 储 选 项 及 其 他 相关 设 定 。 值 得 一 提 的 是 ，Elasticsearch 支 持 动态 的 匹配 ， 也 就 是 说 映射 无 须 事先 确定 ， 而 是 让 系 
统 根据 实际 输入 的 文档 直接 进行 判定 ， 以 确定 每 个 字段 的 类 型 。 当 然 ， 自 动 判断 不 可 能 每 次 都 完全 符合 用 户 的 预期 ， 最 稳妥 的 方式 还 是 事先 定义 。 


“分布 式 (Distributed) : 类 似 Solr， 也 有 分 片 (Sharding) 和 副本 (Replication) 的 概念 ， 分 布 式 索 引 和 查询 的 原理 也 基本 相同 。 一 个 细节 是 ，Elasticsearch 的 副本 是 不 包含 主 分 片 的 。 如 果 有 1 个 副本 ， 那 
么 其 实际 上 有 2 个 分 片 可 以 提供 搜索 ，1 个 主 分 片 加 上 1 个 副本 。 如 果 有 3 个 副本 ， 那 么 其 实际 上 有 4 个 分 片 可 供 搜索 。 


.多 租户 (Multi-tenancy) : 可 以 根据 不 同 的 用 途 区 分 索引 ， 同 时 操作 它们 ， 并 保证 资源 的 分 配 和 隔离 。 不 像 Solt 那 样 需要 schemaxml，solrconfigxml 等 这 种 高 级 设置 ，Elasticseartch 的 实现 比较 简洁 和 直 


观 。 


综 上 所 述 可 以 看 出 ，Elasticsearch 和 Solr 有 很 多 共通 点 ， 同 时 也 有 不 尽 相 同 之 处 。 




















Solr 的 相对 优势 具体 如 下 。 





“ 有 可 视 化 的 界面 ， 使 用 者 可 以 清晰 地 看 到 集群 的 状态 、 统 计数 据 、 索 引 大 小 等 基本 信息 。 
“ 文档 和 字段 配置 步骤 清晰 ， 按 照 教程 很 容易 上 手 。 
“ 除了 JSON， 还 支持 XML 和 CSV 格 式 。 


“ 即使 生成 索引 之 后 ， 其 分 片 也 可 以 添加 或 再 次 切 分 ， 是 一 个 更 为 灵活 的 分 布 式 配 置 方案 。 





Elasticsearch 的 相对 优势 具体 如 下 。 

“ 除了 传统 的 SQL 数据 库 和 文本 ， 还 支持 一 些 非 SQL 的 大 数据 解决 方案 ， 例 如 Mon-goDB 和 Redis 等 ; 也 支持 更 实时 性 的 数据 源 导 入 ， 例 如 Kafa、ActiveMQ 等 之 类 的 消息 队列 。 
“ 当 实时 性 更 新 操作 非常 频繁 的 时 候 ， 读 取 和 查询 效率 仍然 可 以 保持 较 高 的 水 准 。 

“ 除了 普通 的 扁平 结构 文档 之 外 ， 还 支持 层级 型 文档 的 索引 。 

“ 可 以 使 用 脚本 语言 ， 来 自 定 义 排序 时 的 提升 (Boosting) 功能 。 

:无需 ZooKeeper 来 配置 分 布 式 集群 。 完 全 依靠 自身 的 节点 发 现 、 加 入 和 恢复 功能 。 


“ 聚合 (Elasticsearch 称 之 为 Aggregation， 而 Solt 称 之 为 Facet、Grouping) 支持 诬 套 的 层级 ， 大 组 可 以 包含 更 细 力 度 的 分 组 。 理 论 上 是 支持 无 限 次 嵌 套 的 ， 但 是 实际 中 需要 考虑 到 查询 的 性 能 和 效率 。 例 
如 : 大 组 按照 衣服 的 颜色 来 聚合 ， 小 组 按照 尺码 来 聚合 。 这 样 用 户 就 可 以 先 选择 颜色 ， 再 选择 尺码 。 大 致 的 层次 结构 如 下 : 





女装” 100 件 











尺码 1 
“女装 B”-20 件 
站 全 全 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 





“ 时 光 之 门 (Gateway) 。 “时光 之 门 ? 好 像 星际 争霸 里 神族 的 兵营 啊 ! ”大 宝 一 阵 兴奋 。“ 哈 哈 ， 类 似 科 幻 巨 作 里 的 时 光 之 门 是 不 是 很 酷 呢 ?有 了 它 ， 我 们 就 能 在 过 去 、 现 在 和 未 来 之 间 穿 梭 自如 ， 能 
挽回 很 多 缺憾 之 事 。” 人 小 明 接着 说 道 。Elasticsearch 同样 提供 了 这 个 神奇 的 魔法 ， 为 你 的 集群 索引 和 配置 元 数据 提供 数据 镜像 服务 。 一 旦 整个 集群 甬 涡 ， 或 者 是 因为 特殊 需要 而 进行 关 停 ， 我 们 就 可 以 让 集群 
恢复 到 最 后 一 个 状态 ， 并 且 让 服务 重新 启动 。 
































总 体 而 言 ，Solr 上 手 较 快 ， 配 置 步骤 比较 严谨 ， 更 适合 入 门 者 。 而 Elasticsearch 配 置 则 较 灵活 ， 实 时 更 新 和 查询 性 能 更 好 ， 更 适合 有 一 定 经 验 ， 且 拥有 超大 规模 数据 的 用 户 。 当 然 ， 这 些 都 是 基于 现状 
的 ， 相 信 随 着 两 个 开源 项 目的 不 断 完善 和 相互 借鉴 ， 我 们 将 会 看 到 更 为 成 熟 的 搜索 引擎 实现 方案 。 





[由 这 里 的 相似 度 就 是 用 于 相关 性 打分 ， 原 因 是 Lucene 4.0 之 前 默认 采用 VSM 的 相似 度 作 为 相关 性 衡量 ， 使 得 这 一 叫 法 沿用 至 今 。 
[中 分 布 式 中 的 分 片 概念 将 在 稍 后 介绍 。 

[3] Lucene 在 版 本 4.0 之 后 也 开始 支持 切面 功能 。 

轩 通常 是 某 个 字段 值 ， 也 可 以 是 复合 的 查询 条 件 。 


4.6.1 ”实验 环境 设置 























在 这 一 部 分 ， 我 们 会 实践 一 个 假想 的 案例 ， 为 18 类 共 28000 多 件 商品 搭建 几 个 基本 的 搜索 引擎。 数据 还 是 第 1 章 所 使 用 的 : 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Classification/listing.txt 


为 了 帮助 读者 更 好 的 回忆 ， 下 面 列 出 该 商品 数据 的 片段 : 








ID Title CategoryID CategoryName 

1 全 tie (5 殉 力 骂 严 忆 》 32 在。 To 

2 奥 利 奥 原味 夹心 2 390g/ 袋 1 饼干 

3 嘉 顿 225g/ 盒 二 饼干 

4 Aji 六 EN 味 472.5g/ 袋 1 饼干 

5 ” 趣 多 多 曲 奇 饼干 经 典 巧克力 原味 285g/ 黎 1 饼干 

6 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 








可 以 看 到 ， 每 条 记录 有 4 个 字段 ， 包 括 商品 的 ID (ID) 、 商 品 的 标题 (Title) 、 分 类 的 ID (CategoryID) 和 分 类 的 名 称 (CategoryName) 。 

































































针对 这 些 数 据 ， 我 们 需要 考虑 使 用 何 种 开源 项 目 对 其 进行 索引 和 查询 处 理 。Lucene 相 对 比较 底层 ， 如 果 采 用 它 来 搭建 ， 灵 活性 肯定 是 最 高 的 。 不 过 ， 其 工作 量 比较 大 ， 很 多 逻辑 需要 通过 自己 研发 来 实 
现 封装 。 而 Solr 和 Elasticsearch 的 友好 度 更 高 ， 基 本 的 搜索 需求 通过 配置 就 能 实现 ， 常 见 的 定制 化 也 可 以 通过 修改 源码 来 达到 要 求 ， 总 体 而 言 是 更 好 的 选择 。 此 外 ， 为 了 实践 Solr 的 DIH 功 能 ， 我 们 还 需要 使 
到 MySQL。 同 时 ， 中 文 分 词 模块 仍然 是 必 不 可 少 的 。 软 件 运 行 环境 还 需要 java 语言 (JDK 1.8 或 JRE 1.8) ， 以 及 Eclipse 的 IDE 环 境 (Neon.1a Release (4.6.1) ) 。 硬 件 依旧 是 MacBookPro2012、 
MacBookPro2013 和 iMac2015， 操 作 系统 是 Mac OS X。 局 域 网 内 的 IP 分 配 如 下 : 



































iMac2015 192.168.1.48 
MacBookPro2013 192.168.1.28 
MacBookPro2012 192.168.1.78 


和 之 前 一 样 ， 请 根据 自己 的 软 硬 件 环境 和 需要 ， 合 理 地 调整 环境 变量 和 目录 等 。 





4.6.2 ”基于 Solr 的 实现 


1.Solr 方 案 的 总 体 设计 























这 里 我 们 将 使 用 Solr 的 一 个 重要 功能 : DIH (Data Import Handler) 一 一 数据 导入 模块 ， 它 可 以 将 多 种 外 在 的 数据 源 直接 导入 到 Solr 中 ， 然 后 直接 进行 索引 。 只 要 是 提供 了 JDBC (Java DataBase 
Connectivity) 的 数据 库 都 可 以 和 DIH 配 合 工作 。 开 发 者 只 需要 提供 数据 库 连 接 的 参数 ， 还 有 SQL，DIH 就 能 自动 查询 数据 库 ， 然 后 将 结果 集合 转换 为 Solr 中 的 文档 来 进行 索引 ， 同 时 支持 全 量 和 增 量 的 更 
新 。 开 发 者 不 用 再 额外 编码 将 数据 从 MySQL 中 导入 Solr。 


































































































由 于 商品 的 数量 及 用 户 的 访问 流量 都 呈现 快速 增长 的 趋势 ， 因 此 从 系统 架构 的 角度 考虑 ， 可 以 从 一 开始 就 充分 利用 Solr 的 分 布 式 特性 ， 为 系统 的 水 平 性 扩展 做 好 准备 。Solr 在 4.0 版 本 之 前 ， 其 分 布 式 系 
统 是 通过 Master-Slave 架 构 来 实现 的 ， 存 在 单 点 故障 的 风险 。 从 4.0 版 本 开始 ，Solr 提 供 了 一 个 新 的 分 布 SolrCloud， 它 可 以 利用 ZooKeeper 来 管理 机 器 中 的 机 器 节点 ， 消 除了 单 点 故障 的 隐患 。 
综合 考虑 ， 这 里 选择 的 分 布 式 架构 也 是 SolrCloud。 





















































此 ， 基 本 上 其 整体 架构 如 图 4-12 所 示 ，Solr DIH 负 责 解 读 配置 好 的 SQL， 及 时 获取 数据 库 中 数据 的 变化 ， 并 推送 到 SolrCloud 里 。 通 过 ZooKeeper 管 理 ， 从 DIH 模 块 接收 的 数据 变化 会 自动 传播 到 所 有 
的 服务 器 节点 上 ， 保 证 索引 同步 更 新 。 前 端 应 用 需要 搜索 的 时 候 ， 就 会 发 送 请 求 到 SolrCloud， 集 群 也 会 负责 挑选 服务 器 节点 进行 响应 ， 并 返回 搜索 结果 。 此 处 中 文 的 处 理 ， 仍 然 使 用 的 是 开源 的 分 词 软件 
IKAnalyzer。IKAnalyzer 可 以 方便 地 和 Solr 进 行 集成 ， 用 于 索引 字段 和 查询 输入 的 中 文 切 词 。 































































































这 里 的 前 端 应 用 和 SolrCloud 之 间 没 有 引入 封装 的 API 层 ， 那 是 因为 目前 业务 的 需求 还 比较 简单 ， 前 端 开发 者 只 需要 理解 最 基本 的 Solr 查 询 语法 ， 就 能 完成 任务 。 如 果 将 来 业务 场景 变 得 越 来 越 复 杂 ， 那 
么 就 需要 专门 的 团队 来 负责 封装 和 维护 一 套 AP1， 本 章 稍 后 也 会 介绍 相关 的 内 容 。 




















SolrCloud 


Solr 节点 1 











Solr 闻 点 n 
查询 请 3 
am， MySQL 数据库 
三 (存放 商品 和 商 

铺 的 原始 数据 ) 


前 端 应 用 





ZooKeeper 
查询 结果 


IKAnalyzer 
中 文 分 词 


图 4-12 ”使 用 Solr DIH 和 SolrCloud 搭 建 的 基本 框架 


2.Solr 的 准备 





























首先 ， 我 们 将 使 用 iMac2015 这 台 机 器 部 署 单机 版 的 Solr。 可 以 从 下 面 的 地 址 下 载 最 新 版 本 的 Solr 压 缩 包 ， 截 至 本 章 写作 时 其 最 新 的 版 本 是 6.3.0 版 : 














http://lucene.apache.org/solr/ 








解压 到 /Users/huangsean/Coding/ 目 录 中 之 后 ， 设 置 环境 变量 如 下 : 





export PATH=$PATH:/Users/huangsean/Coding/solr-6.3.0/bin 





需要 注意 ， 此 处 不 能 将 SOLR_HOME 的 环境 变量 设置 为 /Users/huangsean/Coding/solr-6.3.0/， 否 则 solr 的 启动 脚本 会 到 该 目录 下 寻找 启动 配置 文件 solr.xml， 并 抛 出 无 法 找到 该 文件 的 异常 。 环 境 变 
量 生效 后 ， 现 在 就 可 以 使 用 命令 solr 启 动 Solr 的 服务 了 : 





[huangsean@iMac2015:/Users/huangsean/Coding/solr-6.3.0]solr start 
Waiting up to 180 seconds to see Solr running on port 8983 [\] 
Started Solr server on port 8983 (pid=639). Happy searching! 








系统 提示 表明 Solr 服 务 已 经 启动 成 功 ， 运 行 在 默认 端口 89983 上 ， 访 问 如 下 链接 你 将 得 到 类 似 图 4-13 的 截屏 : 














http://localhost: 8983/solr/#/ 


S | (化 性 Instance 本 System 1.72 1.54 0.85 
O 「 Ser Physical Memory 42.4% 
BB =. 


久 Logging 
量 Core Admin 


6.78 GB 
志 solr-spec 6.3.0 


solr-impl 6.3.0 a66a44513ee8191le25b477372094bfa846450316 - sha 
A Java Properties 才 lucene-speG.3.0 


File Descriptor Count 1.2% 


号 Thread Dump lucene-impl6.3.0 a66a44513ee8191e25b477372094bfa846450316 - sha 
125 


里 No cores available 
Co and create one | JVM 


"| Runtime QOracle Corporation Java HotSpot(TM) 64-Bit Server VM 1.8.0_1 

国 Processors 8 

本 Args -DSTOP.KEY=solrrocks 36.51 MB 
-DSTOP.PORT=7983 


490.69 MB 
-Djetty.home=/Users/huangsean/Coding/solr-6.3.0/server A A i 
-Djetty.port=8983 | 

















4-13 在 本 机 上 启动 第 一 个 Solr 服 务 








从 图 4-13 中 你 可 以 看 到 该 Solr 服 务 的 基本 信息 ， 包 括 Solr 的 版 本 及 其 内 部 Lucene 的 版 本 都 是 6.3。 本 机 的 物理 内 存 数量 、 文 件 描述 符 的 数量 ， 系 统 对 Java 





虚拟 机 JVM 所 分 配 的 内 存 数量 ， 等 等 。 

















当 我 们 切换 左 侧 的 菜单 选项 到 Core Admin 的 时 候 ， 会 发 现 目前 还 没有 任何 一 个 核心 (core) 。 如 图 4-14 所 示 。 其 中 的 “Add Core” 操 作 容 易 让 人 误解 为 创建 新 的 核心 。 其 真正 的 含义 实际 上 是 添 
加 “已 有 ”的 核心 ， 如 果 试 图 直接 使 用 它 创 建 一 个 名 为 listing 的 核心 ， 那 么 你 将 看 到 图 4-15 的 错误 提示 ， 表 示 缺 失 了 配置 文件 solrconfig.xml。 








name. 





人 编 Dashboard instanceDir: 


篇 Logging dataDir: 


config: 


全 Java Properties 
schema: 
亏 Thread Dump 


@ instanceDir and dataDir need to 
exist before you can create the core 


时 No cores available 


Go and create one Add Core 





图 4-14 创建 第 一 个 Solr 的 核心 ， 名 为 listing 


Error CREATEing SolrCore 'listing': Unable to create core [listing] Caused by: Can't find 
resource 'solrconfig.xml' in classpath or '/Users/huangsean/Coding/solr- 
6.3.0/server/solr/listing' 


纺 Dashboard 





较 Logging 
量 Core Admin 


Add Core 





Java Properties name: listing 








号 Thread Dump instanceDir: jlisting 





dataDir: data 


No cores available 
Go and create one config: |solrconfig.xml 








schema: ‘schema.xml 











@ instanceDir and dataDir need to 


exist before you can create the core 


4-15 无 法 通过 “Add Core” 操 作 直 接 创 建新 的 核心 


























正确 的 做 法 是 使 用 solr create 命 令 : 











[huangsean@iMac2015: /Users/huangsean/Coding/solr-6.3.0]solr create -c listing new 


Copying configuration to new core instance directory: 
/Users/huangsean/Coding/solr-6.3.0/server/solr/listing new 


Creating new core 'listing new' using command: 
http://localhost:8983/solr/admin/cores?action=CREATE&name= 
listing new&instanceDir=listing new 


{ 

"responseHeader":{ 
"etatus"*0r 
"OTime":839}, 

"core":"listing new"} 








其 中 ，-c listing_new 表 示 新 创建 的 核心 或 文档 集合 名 称 为 listing_new。 solr create 命 令 将 根据 solr 运 行 的 模式 来 确定 生成 什么 ， 如 果 是 单机 模式 ， 那 么 将 创建 核心 ;如 果 是 SolrCloud 模 式 ， 那 么 将 创 
建文 档 集合 。 依 照 系统 提示 ， 核 心 listing_new 已 经 成 功 创立 。 查 看 文件 目录 ， 你 将 发 现在 /Users/huangsean/Coding/solr-6.3.0/server/solr/ 目 录 中 多 了 一 个 新 的 目录 |isting_new,， 该 目录 包含 了 这 个 核心 
的 基本 文件 ， 包 括 core.properties、conf 配 置 目录 和 data 数 据 目录 ， 如 图 4-16 所 示 。 































































































Today Today Today Today 


MM bin Ml logs core.properties 
Ml example 国 solr p016 Bl data 
El server MN solr-webapp 





Ml configsets Previous 7 Days 
Previous 7 Days Previous 7 Days README.txt MM conf 

MO dist MN contexts 志 ] solr.xml 

国 docs Ml etc 地] zoo.cfg 





图 4-16 ”新 创建 的 核心 listing_new 位 于 相应 的 目录 中 





通过 restart 选 项 重启 Solr 服 务 : 


[huangsean@iMac2015:/Users/huangsean/Coding/solr-6.3.0]solr restart 

Sending stop command to Solr running on port 8983 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... waiting up to 180 
Archiving 1 old GC log files to /Users/huangsean/Coding/solr-6.3.0/server/logs/archived 加 

Archiving 1 console 1og files to /Users/huangsean/Coding/solr-6.3.0/server/logs/archived 

Rotating solr logs, keeping a max of 9 generations 

Waiting up to 180 seconds to see Solr running on port 8983 [\] 

Started Solr server on port 8983 (pid=1020). Happy searching! 








再 次 查看 链接 http://localhost: 8983/solr/#/， 你 将 看 到 类 似 图 4-17 的 截屏 ，listing_new 已 经 出 现在 Core Admin 的 选项 卡 中 ， 以 及 Core Selector 的 下 拉 选 项 中 。 











下 面 ， 我 们 将 配置 这 个 核心 ， 让 它 承 载 28000 多 件 测试 商品 的 数据 。 


3.Solr 中 的 数据 定义 


本 次 实战 的 最 终 目的 是 让 测试 商品 全 部 进入 搜索 引擎 ， 而 我 们 已 经 介绍 过 搜索 引擎 最 重要 的 就 是 文档 和 字段 的 设计 。 这 里 很 明显 ， 一 件 商 品 对 应 于 一 篇 文档 。 而 字段 的 设计 ， 根 据 测试 数据 的 4 个 字段 ， 
也 就 是 商品 的 ID (ID) 、 商 品 的 标题 (Title) 、 分 类 的 ID (CategoryID) 和 分 类 的 名 称 (CategoryName) ， 相 应 地 在 Solr 中 定义 4 个 字段 ， 如 表 4-8 所 示 。 


图 Add Core | unoad | hj Rename | 跑 Swap 到 Reload 


listing_... 国 Core 








编 Dashboard 
startTime: less than a minute ago 





久 Logging instanceDir: © /Users/huangsean/Coding/solr-6.3.0/server/solr/listing_new 


dataDir: /Users/huangsean/Coding/solr-6.3.0/server/solr/listing_new/data/ 
岛 Java Properties 
Index 
号 Thread Dump 


lastModified: 





r r i 
Core Selecto version: 


numDocs: 
maxDoc: 
deletedDocs: 
optimized: 
current: 


directory: org.apache.lucene.store.NRTCachingDirectory:NRTCachingDirectory(MMapD 
6.3.0/server/solr/listing_new/data/index 
lockFactory=org.apache.lucene.store.NativeFSLockFactory@759f6bf8; 
maxCacheMB=48.0 maxMergeSize MB=4.0) 
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图 4-17 在 Web UI 中 查看 新 核心 listing_new 
表 4-8 商品 字段 的 定义 


名 称 含义 类 型 
listing title 商品 名 称 ， 例 如 “牛奶 巧克力 “海鲜 套餐 “Apple 电脑 ”等 string 


category_id 站 品 分 类 的 唯一 ID long 
商品 分 类 的 名 称 ， 例 如 “手机 ”“ 电 脑 ”“ 饮 料 饮品 ”"， 等 等 。 我 们 也 会 将 分 类 信息 放 
category name ”| 入 索引 中 ， 以 确保 用 户 在 搜索 “手机 ”这 种 宽泛 词语 的 时 候 ， 能 够 看 到 这 些 分 类 里 的 | string 
产品 





如 果 是 Solr 5.0 之 前 的 版 本 ， 我 们 可 以 进入 这 个 目录 : 
/Users/huangsean/Coding/solr-x.x.x/server/solr/listing new/conf 


打开 并 编辑 Solr 中 的 schema.xml 文 件 ， 加 入 如 下 字段 配置 : 





<field name="id" type="long" indexed="true" stored="false" /> 

<field name="listing title" type="text en" indexed="true" stored="true" /> 
<field name="category id" type="long" jndexed="true" stored="false" /> 
<field name="category name" type="text en" indexed="true" stored="true" /> 
<uniqueKey>id</uniqueKey> 












































如 果 Solr 默 认 的 配置 已 经 提供 了 id 字 段 ， 就 无 须 再 添加 。 其 中 id 和 category_id 只 需要 用 于 查询 (普通 顾客 很 少 用 ， 更 多 的 是 给 开发 和 测试 做 调试 之 用 的 ) ， 无 须 在 前 端 显示 出 来 ， 因 此 将 indexed 设 置 
为 true， 而 stored 设 置 为 false。 而 listing _title 和 category_name 都 是 既 要 进行 索引 ， 也 要 进行 展示 的 ， 因 此 indexed 和 stored 都 设置 为 true。 此 外 ， 这 两 个 字段 还 需要 进行 中 文 分 词 ， 因 此 可 以 采用 稍 后 介 
绍 的 IK 分 词 模 块 。 最 后 ， 用 uniqueKey 表 示 值 必须 是 唯一 的 字段 。 
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不 过 在 5.0 版 本 之 后 ，Solr 开 始 使 用 名 为 managed-schema 的 文件 来 管理 schema， 如 图 4-18 所 示 。 而 且 使 用 managed-schema 之 后 ， 系 统 还 支持 在 Web 的 管理 UI 中 直接 添加 和 修改 字段 ， 例 如 在 | 
19 中 ， 我 们 添加 了 listing_title 的 字段 。 按 需 添 加 完 所 有 的 4 个 字段 ， 你 就 可 以 使 用 文本 编辑 器 打开 这 个 文件 了 : 
































/Users/huangsean/Coding/solr-6.3.0/server/solr/listing new/conf/managed-schema 


Today Today Today 


Ml configsets 国 conf MM lang 
ll listing_new Ml data Yesterday 


2016 Yesterday 胸 ibslaklelsTe Eo lt 


README.txt core.properties 2016 
solr.xml 








currency.xml 
elevate.xml 
params.json 
protwords.txt 
solrconfig.xml 
stopwords.txt 
synonyms.txt 


| zoo.cfg 











4-18 ”文件 schema.xml 不 复 存在 ， 取 而 代 之 的 是 managed-schema 























你 会 发 现 managed-schema 就 是 曾经 熟悉 的 schema.xml， 而 且 刚 刚 在 Web Ul 里 所 做 的 schema 增 加 和 修改 都 体现 在 其 中 ， 包 括 category id、category name、id 和 listing_title， 如 图 4-20 所 示 。 此 
外 ，managed-schema 和 schema.xml 不 同 ，managed-schema 无 须 重启 Solr 就 能 生效 。 完 整 的 managed-schema 文 件 请 参考 : 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Solr/solr/listing new/conf/managed-schema 


4.Solr DIH 的 配置 和 索引 














基本 配置 完毕 后 ， 我 们 将 先后 进入 搜索 引 警 最 核心 的 两 个 阶段 : 批量 索引 和 实时 查询 。 对 于 现 有 的 系统 ， 特 别 是 电 商 平台 ， 大 部 分 数据 仍然 处 于 数据 库 之 中 。 因 此 ， 我 们 可 以 充分 利用 Solr 的 DIH 扩 展 ， 
将 多 种 外 在 的 数据 源 直接 导入 到 Solr 中 然后 进行 索引 。 为 了 实践 DIH 的 便捷 性 ， 这 里 特意 先 将 第 1 章 所 用 的 listing-segmented-shuffled.txt 数 据 导 入 MySQL， 然 后 让 DIH 直 接 从 关系 型 数据 库 MySQL 里 将 数 
据 导 入 Solr 集 群 ， 最 终 实现 商品 的 索引 。 















































(1) MySQL 的 部 署 
MySQL 的 免费 版 可 在 这 里 下 载 : 


https://dev.mysql.com/downloads/mysql/ 
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图 4-19 在 Web UI 中 添加 新 的 字段 


<field name="_version_" type="long" indexed="false" stored="false"/> 


Ue 


<dynamicField name="*_txt_en_split_tight" type="text_en_splitting_tight" indexed="true" stored="true"/> 





图 4-20 schema 字段 修改 已 经 体现 在 managed-schema 中 了 


本 次 实验 所 采用 的 MySQL Community Server 其 版 本 是 5.7.17， 而 MySQL Workbench 的 版 本 是 6.3.8。 两 者 安装 之 后 ， 启 动 MySQL 的 服务 。 图 4-21 展 示 了 在 Mac OS X 系 统 中 ， 如 何在 “系统 设 
置 ”的 MySQL 选 项 中 启动 该 服务 。 这 样 ， 你 就 可 以 通过 可 视 化 的 界面 或 命令 行 来 建立 新 的 数据 库 表 格 listing-segmented-shuffled。 图 4-22 是 可 视 化 创建 的 过 程 ， 点 击 右 下角 的 Apply 按 钮 即 可 生效 ， 下 面 
是 创建 表格 的 命令 : 











CREATE TABLE 'sys'.'listing segmented shuffled' ( 
'listing id' BIGINT NOT NULL, 
'listing title' VARCHAR(200) NULL, 
'category id' BIGINT NULL, 
'category name' VARCHAR(20) NULL, 
PRIMARY KEY ('listing id')); 





然后 在 Query 窗 口中 使 用 load data 的 命令 ， 将 商品 的 原始 数据 导入 刚刚 创建 的 表格 中 : 





load data local 

infile "/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-noheader .txt" 
into table sys.listing segmented shuffled character set utf8 (listing id,list 

ing title,category id,category name); 








Q Search 


MySQL Server Status 


The MySQL Database Server is started and ready for client connections. 
To shut the Server down, use the "Stop MySQL Server" button. 


The MySQL Server Instance is Funnngo 


lf you stop the server, you and your applications will not 
be able to use MySQL and all current connections will be closed. 


Stop MySQL Server 


Automatically Start MySQL Server on Startup 


You may select to have the MySQL server start 
automatically whenever your computer starts up. 





图 4-21 启动 MySQL 


MANAGEMENT 
© Server status 
星 Client Connections 


二 Users ste | Colamn Datatype Default / Expression 
SSN listing_id BIGINT 


字 Data Export listing_title VARCHAR(200) 

了 由 Data Import/Restore category_id BIGINT 
INSTANCE 

日 Startup / Shutdown 

A Server Logs 

5 Options File 


PERFORMANCE 











《> 0 





<click to edit> 


Column details 'category_name' 


Column Name: category_name Datatype: | 





Collation: Table Default Default 








Comments: Storage: 【。)] VIRTUAL STORED 


口 Primary Key 中 Not NULL 中 Unique 
Binary Unsigned ZeroFill 
Auto Increment [ Generated 





Columns 








4-22 ”通过 MySQL Workbench 的 可 视 化 界面 创建 表 














注意 这 里 使 用 的 导入 数据 和 第 1 章 的 稍 有 不 同 ， 名 为 listing-segmented-shuffled-noheader.txt， 它 去 除了 第 一 行 的 列 头 名 称 ， 保 证 没有 噪音 数据 写 入 MySQL 数 据 库 。 该 文件 的 内 容 请 见 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/listing-segmented-shuffled-noheader.txt 











导入 完成 后 ， 通 过 查询 可 以 获得 图 4-23 的 截屏 。 由 于 原始 数据 文件 是 UTF-8 编 码 的 ， 因 此 在 创建 表格 和 导入 数据 的 过 程 中 ， 请 确保 数据 库 、 表 格 和 load data 命 令 中 都 使 用 了 UTF-8 编 码 ， 否 则 可 能 会 出 
现 乱 码 。 如 果 仍 然 显示 乱码 ， 那 么 还 需要 确认 下 MySQL Workbench 的 设置 : Preferences 一 Appearance 一 Configure Fonts For， 是 否 选 择 了 Simplified Chinese， 如 果 不 是 修改 即 可 。 








咎 日 | 人 多 信人 做 〇 | 妈 | 昌 昌 同 | Limittoioormws 因 | 遍 | 多 


1®% SELECT * FROM sys.listing segmented shuffled,; 








Dp 
100% uC 


Result Grid | 围 CY FiterRows: |  Q search 





listing_id listing_title 


雀巢 脆 脆 狗 威 化 巧克力 巧克力 味 夹心 20g 2... 
奥 利 奥 原 味 夹心 饼干 390g 袋 

嘉 顿 香 葱 薄饼 225g 盒 

aji 苏打 饼干 酵母 减 盐 味 472.5g 袋 

趣 多 多 曲 奇 饼干 经 典 巧克力 原 味 285g 袋 

趣 多 多 曲 奇 饼干 经 典 巧克力 原味 285g 袋 x2 
aji 尼 西亚 惊奇 脆 片 饼干 起 士 味 200g 袋 

格力 高 百 醇 抹茶 幕 斯 提 拉 米 苏 芝士 蛋糕 … 
奥 利 奥 巧克力 味 夹心 饼干 390g 袋 

趣 多 多 巧克力 味 曲 奇 饼干 香 脆 米粒 味 85g 袋 
趣 多 多 巧克力 味 曲 奇 饼干 香 脆 米粒 味 85g 袋 ..… 
aji 尼 西亚 惊奇 脆 片 饼干 200g 袋 4 起 士 昧 ... 
猴 姑 酥 性 饼干 20 天 装 960g 盒 

猴 姑 酥 性 饼干 20 天 装 960g 盒 x2 

猴 姑 酥 性 饼干 20 天 装 960g 盒 x3 

卡 夫 牛奶 优 冠 酥 性 饼干 纯正 牛奶 味 1kg 盒 
卡 夫 牛奶 优 冠 酥 性 饼干 纯正 牛奶 味 1kg 盒 x2 
三 牛 万 年 青 饼干 528g 袋 

太平 加 铁 梳 打 饼 干 香 葱 口味 400g 袋 

猴 姑 买 1 送 10 最 新 批 次 江 中 猴 姑 饼干 酥 性 ... 
康 元 提 子 饼干 200g 盒 


listing_segmented_shuffled 1 Apply 


图 4-23 ”商品 数据 导入 成 功 
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(2) DIH 的 部 署 


在 开始 配置 DIH 之 前 ， 首 先 要 确保 DIH 的 jar 包 和 MySQL 的 JDBC 连 接 jar 包 都 已 经 放 在 /Users/huangsean/Coding/solr-6.3.0/server/solr-webapp/webapp/WEB-INF/lib/ 目 录 下 了 ， 否 则 运行 数据 导 
入 时 会 抛 出 驱动 加 载 的 异常 。 例 如 ，6.3.0 版 本 Solr DIH 的 jar 包 是 solr-dataimporthandler-6.3.0.jar， 可 以 在 /Users/huangsean/Coding/solr-6.3.0/dist/ 目 录 中 找到 。 





你 也 可 以 在 https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Solr/solr-webapp/webapp/WEB-INF/lib/solr-dataimporthandler-6.3.0.jar 找 到 该 jar 
包 。 


而 在 MySQL 的 官网 http://dev.mysql.com/downloads/connector/j/ 可 以 找到 连接 器 ， 现 在 的 版 本 是 mysql-connector-java-5.1.40-bin.jar。 


你 也 可 以 在 https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Solr/solr-webapp/webapp/WEB-INF/lib/mysql-connector-java-5.1.40-bin.jar 找 到 该 


jar 包 。 
两 个 jar 包 准备 就 绪 之 后 ， 再 打开 /Users/huangsean/Coding/solr-6.3.0/server/solUlisting_new/conf/solrconfig.xml 文 件 进行 编辑 。 


在 solrconfig.xml 中 插入 如 下 一 段 内 容 ， 指 定 DIH 的 配置 文件 为 solr-data-config.xml: 





<!-- 使 用 DIH 导 入 MySQL 中 的 商品 数据 
-> 
<requestHandler name="/dataimport" 
Class="org.apache.solr.handler .dataimport .DataImportHandler"> 
<lst name="defaults"> 
<str name="config">solr-data-config.xml</str> 
</lst> 
</requestHandler> 





然后 ， 在 同一 目录 下 新 建 名 为 solr-data-config.xml 的 文件 ， 内 容 如 下 : 





<dataConfig> 


<dataSource name="jdbc" driver="com.mysql.jdbc.Driver" 
url="jdbc:mysql://localhost:3306/sys" 
User="root" password="yourownpassword"/> 


<document name="o2o listing"> 
<entity name="o2o listing" 
logLevel="info™" 
pk="listing id" 
query="SELECT * FROM listing segmented shuffled"> 
<field column="listing id" > 


<field column="listing title" isting title"/> 





<field column="category id" egory_id"/> 
<field column="category name™" name="category_name"/> 
</entity> 
</document> 
</dataConfig> 




















其 中 dataSource 指 定 了 JDBC 的 连接 参数 ， 包 括 主 机 IP、MySQL 的 端口 号 、 用 户 名 和 访问 密码 等 。 而 在 document 中 ，pk 是 数据 库 主键 ，query 是 查询 的 SQL 语 句 ，field 将 数据 库 字 段 和 Solr 的 字段 进行 
匹配 。 这 里 的 样 例 中 数据 库 字 段 的 名 称 和 Solr 字 段 的 名 称 基 本 上 是 一 致 的 ， 所 以 看 上 去 有 点 怪 。 实 际 应 用 中 对 于 解决 名 称 不 匹配 的 遗留 问题 非常 有 利 。 配 置 完毕 ， 再 次 按照 上 一 节 的 步骤 ， 启 动 (或 重 


启 ) Solr。 完 毕 后 ， 按 照 图 4-24 所 示 的 步骤 开始 进行 数据 的 导入 ， 默 认 的 是 全 量 导入 full-import) 。 选 项 Clean 表 示 清 除 之 前 的 索引 ， 要 谨慎 使 用 。 而 Commit 表 示 将 索引 变化 从 内 存 中 持久 化 到 磁 


盘 ，Verbose 和 Debug 可 以 提供 更 多 的 信息 用 于 调试 ，Optimize 用 于 索引 结构 的 优化 。 图 4-25 表 明 我 们 已 经 将 MySQL 中 的 28000 多 条 测试 记录 全 部 导出 ， 并 在 Solr 中 建立 了 索引 。 这 次 执行 的 速度 相当 快 ， 
整个 过 程 耗 时 只 有 1 种 钟 左右 。 


必 er 
Solr= 3 weenne ~ 


Requests: 0, Fetched: 0, Skipped: 0, Processed: 0 
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图 4-24 数据 导入 和 索引 建立 过 程 中 ， 如 果 出 现 错误 会 子 以 提示 


此 时 ， 你 可 以 访问 链接 http://localhost: 8983/solr/#/listing_new 来 了 解 索 引 的 基本 情况 ， 包 括 索 引 的 文档 数量 和 文件 大 小 等 信息 。 











同时 你 也 会 发 现 /Users/huangsean/Coding/solr-6.3.0/server/solr/listing_new/data 数 据 目 录 也 在 相应 增 大 ， 原 因 是 Solr 的 索引 文件 都 存放 于 此 。 对 于 本 实例 中 所 用 到 的 solrconfig.xml 和 solr-data- 
config.xml| 配 置 文件 可 以 访问 : 











https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/Solr/solr/listing new/conf 


( 克 © /dataimport i 


Ed 
olr 加 Indexing completed. Added/Updated: 28706 documents. Deleted 0 documents. (Duration: 015) 
Command Requests: 1 1/s, Fetched: 28,706 28,706/s, Skipped: 0 , Processed: 28,706 28,706/s 
| full-import Started: less than a minute ago 


口 Verbose 
仿 Logging Clean 


部 Core Admin Commit 
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图 4-25 ”数据 导入 和 索引 建立 完毕 ， 本 次 处 理 了 28000 多 条 记录 
而 索引 后 的 数据 文件 可 以 参考 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/Solr/solr/listing new/data 

















使 用 DIH 进 行 全 量 索引 的 时 候 ， 我 们 还 可 以 通过 MySQL 的 Limit 和 Offset 进 行 批量 的 导出 ， 以 避免 过 大 的 资源 消耗 。 此 外 ， 也 可 以 配置 增 量 的 DIH 配 置 ， 每 次 只 更 新 有 变化 的 数据 。 
5. 基 本 查询 














索引 成 功 之 后 ， 就 可 以 进行 各 种 实时 的 查询 了 。 我 们 可 以 在 solrconfig.xml 中 设置 响应 用 户 请 求 的 处 理 器 (handler) ， 如 下 : 











<requestHandler name="/search" class="solr.SearchHandler"> 
<lst name="defaults"> 
<str name="defType">edismax</str> 





<str name="q.op">AND</str> 
<str name="gf"> 
id listing title category id cateogry name 
</str> 
<str name="mm">100%</str> 
</requestHandler> 











在 这 个 名 为 “search” 的 处 理 器 中 ，defType 设 置 为 edismax， 表 示 系 统 将 使 用 edismax 的 方式 解析 用 户 的 输入 ，q.op 设 置 为 AND 表 示 关 键 词 之 间 默 认 是 “与 ”的 关系 ， 也 就 是 期 望 返 回 的 商品 中 输入 
的 每 个 关键 词 都 要 出 现 ，qf 的 内 容 表 示 需 要 进行 关键 词 查询 的 字段 ， 这 里 依次 是 id、listing title、category id 和 category_name， 用 户 输入 的 关键 词 会 在 这 4 个 字段 中 搜寻 ， 而 mm 表示 某 个 商品 中 至 少 要 
出 现 多 少 比 例 的 关键 词 才能 返回 。 当 然 ，solrconfig.xml 还 有 很 多 其 他 方面 的 配置 ， 后 文 会 逐步 介绍 。 












































如 果 solrconfig.xml 有 所 修改 ， 则 需要 重启 Solr。 如 果 配 置 成 功 ， 就 可 以 在 核心 isting_new 的 Query 分 页 下 进行 查询 。 图 4-26 展 示 了 查询 所 有 结果 后 的 内 容 ， 返 回 了 前 10 条 记录 。 需 要 注意 的 是 ， 虽 然 
查询 条 件 q 是 *: *， 即 查询 全 部 商品 ， 但 是 搜索 引擎 只 会 返回 指定 的 前 若干 项 结果 。 这 里 start 为 默认 值 0，rows 为 默认 值 10， 因 此 返回 了 第 1 到 第 10 件 商品 。 这 是 搜索 引擎 的 重要 优化 举措 : 如 果 每 次 返回 所 
有 的 查询 结果 ， 那 么 对 于 搜索 引擎 而 言 将 是 巨额 的 性 能 开销 ， 同 时 对 普通 用 户 而 言 也 是 没有 必要 的 ， 毕 竟 他 们 只 关心 排名 靠 前 的 内 容 。 这 也 是 为 什么 无 论 是 Google、 百 度 、Bing 这 样 的 通用 搜索 引擎 ， 还 是 
亚马逊 、 京 东 、 天 猫 这 种 垂直 电 商 类 搜索 引擎 ， 都 需要 采用 分 页 浏览 的 机 制 为 用 户 呈 现 搜索 结果 。 
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Request-Handler (qt) 3 http:/ /localhost:8983/solr/listing_new/select?indent=on&q=*:*&wt=json 
/select 








{ 

一 COMMON 一 一 "responseHeader":{ 
编 Dashboard q "status":0, 
"QTime" :21, 

全 Logging . | "params":{ 
"ges", 
"indent":"on", 
入 Java Properties "wt":"json", 

"_"s"1485229852062"}}, 
"response":{"numFound":28706,"start":0,"docs":[ 
| { 

"1isting_title":" 人 省 时 脆 脆 狗 威 化 巧克力 巧克力 味 夹心 20g 24 盒 "， 
"category_name":" 余 干 "， 

全 overview "id":"1", 

时 Analysis "category_id":1, 

"_version_":1557367853209878528}，, 








万 Core Admin 








缉 Thread Dump 











上 | Dataimport 





印 Documents C | "1Listing_title":" 奥 利 奥 原 味 夹心 饼干 390g 袋 "， 
- | "category_name" : "饼干 "， 

虱 Files | | "id":"2", 

辆 Pino Raw Query Parameters "category_id":1, 

keyl=vall&key2=val2 | "_version_":1557367853210927104}，, 











碟 Plugins / Stats 


wt 
中 Qauery FE "listing_title":" 嘉 顿 香 萄 薄饼 2259 盒 "， 


"category_name":" 一 
“@ Replication ind 一 饼干 "， 
ndent "id":"3", 
叶 Schema 口 debugQuery "category_id":1, 
"_version_":1557367853210927105}，, 








PP Segments info 
DD dismax 
"listing_title":"aji 苏打 饼干 酵母 减 盐 味 472 .5g 袋 "， 


"category_name": "饼干 "， 
Dhl “id"s"4", 
OD facet "category_id":1, 
"_version_":1557367853210927106})，, 


edismax 


DD spatial 


口 spellcheck "listing_title":" 趣 多 多 曲 奇 饼干 经 典 巧克力 原 味 285g 和 袋 "， 


me 


| "id":"5", 





图 4-26 ”查询 全 部 结果 后 返回 了 前 10 条 记录 ， 默 认 是 JSON 格 式 


若 要 指定 查询 的 条 件 ， 还 可 以 设置 q 参 数 。 例 如 ，“category_name: 海鲜 ”表示 只 搜索 类 别 为 海鲜 类 的 商品 。 这 样 就 只 返回 了 3619 个 相关 的 结果 (如 图 4-27 所 示 ) 。 我 们 还 可 以 在 q 字 段 中 使 用 布尔 
模型 中 的 布尔 表达 式 “category_name: 海鲜 AND listing title: 大 疗 蟹 ”， 图 4-28 表 明 命 中 的 记录 数量 缩小 到 了 935 条 。 这 些 都 是 查询 的 最 基本 形式 。 

















到 分 析 器 的 结果 是 ， 


Solr 


编 Dashboard 

全 Logging 

时 Core Admin 
且 Java Properties 


如 Thread Dump 


listing_new 了 
全 Overview 


于 Analysis 





人 Dataimport 
全 Documents 


Files 
国 pino 


蝎 , Plugins / Stats 


Pouery 


> Replication 


畏 Schema 


PP Segments info 


6. 中 文 分 词 和 同义词 


Request-Handler (qt) 
/select 


EI http://localhost:8983/solr/listing_new/select?indent=on&q=Ccategory_name: 海 鲜 &wt=json 





common - 
| 9 
category_name: 海 鲜 


df 


Raw Query Parameters 
keyl=vall&key2=val2 





we 
Dson 
| indent 
debugQuery 


DOD dismax 
Dedismax 
Ohl 

Ofacet 

0 spatial 

门 spellcheck 





{ 


"responseHeader":1{ 

"status" :0, 

"QTime":0, 

“params":{ 
"q":"category_name: 海 鲜 "， 
"indent":"on", 
"wt":"json", 


_":"1485229852062"}}, 


"response":{"numFound":3619,"start":0,"docs":[ 


{ 


"listing_title":"1 号 生 鲜 海 名 威 特 级 南美 虾仁 400g 袋 "， 
"category_name" : "海鲜 水 产 " ， 

"id":"2693", 

"category_id" :3 

"_version_":1557367853289570313})，, 


"listing_title":"1 号 生 鲜 海 名 威 龙 利 鱼 柳 500g 袋 "， 
"category_name" : "海鲜 水 产 " ， 

"id":"2694", 

"category_id":3, 

"_version_":1557367853289570314})，, 


"listing_title":"1 号 生 鲜 速水 细 鳞 鲤鱼 200g 袋 "， 
"category_name":" 海 鲜 水 产 "， 

"id":"2695", 

"category_id":3, 
"_version_":1557367853289570315}，, 


"listing_title":"1 号 生 鲜 东海 野生 小 黄鱼 450g 8 条 袋 "， 
"category_name" : "海鲜 水 产 " ， 

"id":"2696", 

"category_id":3, 

"_version_":1557367853289570316}，, 


"listing_title":" 蟹 来 乐 阳澄湖 大 阐 蟹 六 月 黄 现货 大 亲 角 6 月 黄 螃蟹 2.2-2 


"category_name" :" 海 鲜 水 产 "， 
Sa 





图 4-27 查询 结果 后 返回 了 “海鲜 水 产 ” 分 类 下 的 3000 多 条 记录 


表明 上 ， 一 切 似乎 都 很 顺利 。 但 真 的 是 这 样 的 吗 ? 多 尝试 一 下 ， 很 快 你 就 会 发 现 几 个 问题 。 比 如 ， 在 q 字 段 中 搜索 “category_name: 海水 ”时 ， 原 本 你 以 为 不 会 有 这 样 的 商品 返回 。 但 是 “海鲜 水 


产 ” 分 类 中 的 全 部 商品 都 返回 了 ， 这 是 什么 原 








(1) 中 文 分 词 


针对 第 一 个 困惑 ， 我 们 很 容易 就 想到 了 分 词 的 问题 。 可 以 使 


未 处 理 ， 会 导致 索引 阶段 和 查询 阶段 的 分 词 不 一 致 ， 搜 索 无 法 | 















































呢 ? 再 比如 ， 在 q 中 搜索 “listing _title: 西红柿 ”能 获取 3700 多 件 商品 ， 但 是 搜索 “listing title: 番茄 ”只 能 获取 150 多 件 商品 。 难 道 两 者 不 应 该 一 致 吗 ? 


Analysis 模 块 来 诊断 问题 所 在 。 如 图 4-29 所 示 ， 选 择 listing_new 核 心 ， 点 击 其 下 的 “Analysis” 模 块 ， 然 后 在 Field Value (Index) 输入 
框 (针对 索引 阶段 的 分 析 ) 中 填 入 被 索引 的 分 类 名 称 “ 海 鲜 水 产 ”， 在 Field Value (Query) 输入 框 (针对 查询 阶段 的 分 析 ) 中 填 入 查询 时 的 关键 词 “ 海 水 ”。 点 击 “Analyse Values” 按 钮 后 ， 你 就 能 看 
将 所 有 的 中 文 词 都 切 成 了 单个 的 词 。 因 此 根据 查询 “海水 ” 切 分 出 来 “ 海 ” 和 “水 ” 字 ， 匹 配 上 了 “海鲜 水 产 ” 切 分 出 来 的 “ 海 ” 和 “水 ”这 两 个 单字 。 但 是 ， 从 语义 上 来 说 这 种 





匹配 




















是 不 合理 的 。 当 然 ， 我 们 也 可 以 仿照 商品 的 标题 字段 ， 对 于 分 类 名 称 的 字段 预先 进行 中 文 分 词 处 理 ， 然 后 使 用 org.apache.Iucene.analysis.WhitespaceAnalyze 根 据 空白 切 词 。 不 过 ， 查 询 时 候 的 关键 词 还 
匹配 。 所 以 更 好 的 做 法 是 ， 在 schema 文 件 中 为 字段 设置 索引 时 的 分 析 器 和 查询 时 的 分 析 器 。 





/select 


S Pg Request-Handler (qb 3 http://localhost:8983/solr/listing_new/select?fl=*,score&indent=on&q=category_name: 海 铺 








[ | |category_name: 海 鲜 AND 
Loggin 

名 Logging listing_title: 大 并 蟹 

时 core Admin 


豆 Thread Dump 








listing_new Y { 


合 overview 
守 Analysis 
|) Dataimport *,SCOre 


全 Documents df 














Files | 
国 pino | Raw Query Parameters 


keyl=vall&key2=val2 





昂 Plugins / Stats 


EC fa 


te Replication | indent 
吴 schema D debugQuery 








YP Segments info 
| OO dismax 


Dedismax 
Ohl 

Ofacet 

站 spatial 

品 spellcheck 


"response":{"numFound":935,"start":0,"maxScore":20.632393,"docs":[ 





一 COMMON 一 一 一 一 一 一 "responseHeader":1{ 


人 Dashboard q "status" :0, 

"QTime" :0, 

"params":{ 

a "q";"category_name; 海 鲜 AND listing_title: 大 阅 蟹 " ， 
| "indent":"on", 

加 Java Properties "£1":"*,score", 


"wt":"json", 


":"1485229852062"}}, 


"listing_title":" 演 赛 牌 阳澄湖 大 并 稻 礼券 大 闹 蟹 阳澄湖 大 阅 蟹 礼券 螃 稻 大 
"category_name":" 海 鲜 水 产 "， 

"id":"3267", 

"category_id":3, 

"_version_":1557367853309493279, 

"score" :20.632393}, 


"listing_title":" 湿 宴 牌 阳澄湖 大 六 角 礼券 阳澄湖 大 阐 角 大 闸 钥 礼券 大 闸 蟹 
"category_name" :" 海 鲜 水 产 "， 

"i1d":"3259", 

"category_id":3, 

"_version_":1557367853309493271, 

"score":20.301636}, 


"1isting_title":" 油 宴 牌 阳澄湖 大 闭 蟹 礼券 阳澄湖 大 阐 角 大 并 银 礼券 796 型 
"category_name":" 海 鲜 水 产 "， 

"id":"3807", 

"category_id":3, 

"_version_":1557367853327319042, 

"score":19.316982}, 


"listing_title":" 大 阅 蟹 王 阳澄湖 大 闸 蟹 公 急 套餐 公 角 3.6-4.0 两 8 只 起 
"category_name" :" 海 鲜 水 产 "， 
"id":"3711", 


图 4-28 ”查询 “海鲜 水 产 ” 分 类 下 的 “大 阅 蟹 ”， 记 录 数 量 缩小 到 了 900 多 条 


为 了 实现 这 个 目的 ， 首 先 将 中 文 分 词 IKAnalyzer 的 jar 包 放 入 /Users/huangsean/Coding/solr-6.3.0/server/solr-webapp/webapp/WEB-INF/lib 中 ， 对 于 Solr 6.x 之 后 的 版 本 ，IKAnalyzer2012_FF.jar 








不 再 兼容 。 可 以 在 这 里 找到 用 于 Solr 6.x 版 的 IK 中 文 分 词 包 : 








https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Solr/solr-webapp/webapp/WEB-INF/lib/ik-analyzer-solr6.xjar 























仅 有 |K 的 Jar 包 还 不 够 ， 它 还 需要 基本 的 配置 文件 IKAnalyzer.cfg.xml 及 其 定义 的 停 
webapp/webapp/WEB-INF/classes 中 。 可 以 在 这 里 找到 IK 的 下 载 包 : 





词 字典 stopword.dic 和 自 定义 字典 ext.dic， 需 要 将 其 放 入 /Users/huangsean/Coding/solr-6.3.0/server/solr- 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/Solr/solr-webapp/webapp/WEB-INF/classes 





Field Value (Index) Field Value (Query) 


Col 光电 水 产 海水 


人 Dashboard Analyse Fieldname / FieldType: | category_name v | 图 Schema Browser 


户 Core Admin 














和 Java Properties 


有 Thread Dump 


俩 Overview 
时 Analysis 











全 Dataimport 
合 Documents 
Files 

四 Ping 

克 Plugins / Stats 
A Query 

St Replication 


咽 Schema 


PP Segments info 











国 Documentation “” 汪 Issue Tracker 四 IRC Channel Bd Community forum 同 Solr Query Syntax 








4-29 没有 使 用 中 文 分 词 模块 的 字段 ， 无 法 合理 地 切 分 中 文 











将 必要 的 包 放 置 受 当 ， 之 后 需要 在 schema 文 件 (schema.xm| 或 managed-schema) 中 ， 添 加 如 下 字段 类 型 (fieldType) 的 定义 ， 并 命名 为 text_chinese: 





<!-- 处 理 中 文 的 字段 类 型 text_chinese --> 
<fieldType name="text chinese" class="solr.TextField"> 
<analyzer type="index" class="org.wltea.analyzer.lucene.IKAnalyzer" /> 
<analyzer type="query" class="org.wltea.analyzer.lucene.IKAnalyzer" /> 
</fieldType> 





并 为 listing_title 和 category_name 字 段 指 定 类 型 text_chinese: 





<field name="category name" type="text chinese" indexed="true" stored="true"/> 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 
<field name="listing title" type="text chinese" indexed="true" stored="true"/> 




















其 中 type 为 index 的 analyzer， 表 示 用 于 索引 阶段 的 切 分 ， 而 type 为 query 的 analyzer 表 示 用 于 查询 阶段 的 切 分 。 一 般 索引 和 查询 两 个 阶段 的 分 词 配置 要 相同 ， 否 则 可 能 会 导致 无 法 匹配 的 尴 粉 。 例 如 ， 
建立 索引 的 时 候 将 商品 标题 里 的 “手机 保护 壳 ” 切 分 为 “手机 ”、 “保护 ”和 “ 壳 ”， 但 是 查询 时 将 用 户 输入 的 “手机 保护 壳 ” 切 分 为 “手机 ”和 “保护 壳 ” ， 那 么 就 会 无 法 将 商品 和 查询 匹配 上 。 具 体 的 
修改 请 参见 如 下 文件 : 



































https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Solr/solr/listing new/conf/managed-schema 


最 后 就 是 重启 Solr， 并 再 次 进行 类 似 图 4-29 的 操作 。 从 图 4-30 的 截屏 可 以 看 出 ， 这 次 无 论 是 索引 阶段 还 是 查询 阶段 ， 分 析 器 都 会 使 用 IK 的 分 词 ， 结 果 更 合理 ， 搜 索 的 准确 率 得 到 了 提升 。 

















( 众 Field Value (ndex) Field Value (Query) 
SOU 
2 


全 Dashboard Analyse Fieldname / FieldType: 图 Schema Browser 


时 Core Admin 


凰 Java Properties text 海鲜 水 产 text 海水 


= Thread Dump raw_bytes [e6 b5 b7 e9 b2 9c e6 bO0 b4 e4 ba a7] raw_bytes [e6 b5 b7 e6 b0 b4] 
start 0 start 0 


1 


positionLength 1 positionLength 1 
便 overview type type 


| Dataimport 
铺 Documents 
图 Files 

国 pino 

看 Plugins / Stats 
HQuery 

te Replication 


咽 Schema 





局 Documentation ” 汪 Issue Tracker 四 |IRC Channel 国 Communityforum 峰 Solr Query Syntax 


Segments info 





图 4-30 ”对 于 使 用 了 中 文 分 词 模块 的 字段 ， 分 析 步 骤 可 以 合理 地 切 分 中 文 


值得 注意 的 是 ， 虽 然 查询 阶段 的 分 词 随时 可 以 生效 ， 但 索引 阶段 并 非 如 此 。 我 们 还 需要 重新 对 数据 进行 索引 ， 否 则 listing _title 和 category_name 字 段 中 还 是 索引 的 单个 汉字 。 
会 发 现 ， 无 论 是 搜索 “category_name: 海水 ”还 是 “category name: 水 ”都 不 会 出 现 分 类 “海鲜 水 产 ” 了 ， 搜 索 结果 更 加 相关 。 使 用 |K 分 词 后 所 构建 的 完整 索引 位 于 : 














由 


新 索引 完毕 之 后 ， 你 将 








https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/Solr/solr/listing new/data.ik 
在 这 种 处 理 下 ,我们 无 须 再 对 商品 的 标题 提前 进行 分 词 了 ， 感 兴趣 的 读者 可 以 尝试 直接 对 原始 的 标题 进行 索引 。 
(2) 同义词 


分 词 完 之 后 ， 现 在 可 以 关注 第 二 个 有 关 “西红柿 ”和 “番茄 ”的 问题 了 。 由 于 中 文 分 词 方式 的 改变 ， 现 在 搜索 “listing_title: 西红柿 ”和 “listing title: 番茄 ”， 不 相关 的 结果 明显 变 少 。 不 过 ， 两 个 
查询 的 结果 数量 仍然 相差 很 远 : “ 盏 茄 ”返回 了 74 条 结果 ， 而 “西红柿 ”只 返回 了 5 条 。 按 照 生活 常理 ， 这 两 者 表示 同样 的 物品 ， 只 是 在 不 同 的 地 域 有 着 不 同 的 叫 法 。 因 此 搜索 结果 应 该 基本 一 致 ， 现 在 的 
搜索 系统 其 召回 率 有 待 提升 。 为 了 解决 这 样 的 问题 ， 我 们 将 使 用 Solr 中 的 同义词 机 制 。 





























首先 ， 编 辑 文件 /Usershuangsean/Coding/solr-6.3.0/server/solwWlisting_new/conf/synonyms.txt， 并 在 其 中 添加 同义词 的 条 目 “ 西 红 柿 => 釉 茄 





# Synonym mappings can be used for spelling correction too 
pixima => pi 


PP 
西红柿 => 番 茹 





然后 依旧 是 配置 managed-schema。 一 般 情况 下 ， 同 义 词 既 可 以 在 索引 阶段 (type= "index") 添加 ， 也 可 以 在 查询 阶段 (type="query") 添加 ， 两 者 取 一 就 行 了 。 如 果 是 在 索引 阶段 添加 ， 那 么 更 新 
同义词 后 需要 重建 索引 ， 而 且 根据 同义词 的 数量 ， 索 引文 件 也 会 相应 地 变 大 ， 不 过 查询 效率 可 能 会 更 好 。 反 之 ， 如 果 在 查询 阶段 添加 ， 则 无 须 重 建 索引 ， 索 引 大 小 也 不 会 受到 影响 ， 但 是 实时 查询 的 效率 可 
能 会 有 所 降低 。 我 们 先 来 尝试 进行 查询 阶段 的 同义词 设置 。 由 于 不 能 嵌 套 多 个 filter 或 analyzer， 因 此 需要 修改 一 下 原 有 的 IK 设 置 ， 将 IKAnalyzer 修 改 为 IKTokenizerFactory， 并 在 其 后 添加 类 型 为 
solr.SynonymFilterFactory 的 filter， 该 filter 会 根据 syynonyms.txt 的 内 容 来 添加 同义词 。 修 改 后 代码 如 下 : 























<!-- 处 理 中 文 的 字段 类 型 text_chinese --> 
<fieldType name="text chinese" class="solr.TextField"> 
<analyzer type="index" class="org.wltea.analyzer.lucene.IKAnalyzer" /> 
<!-- 索引 阶段 --> 
<analyzer type="query" > <!-- 查询 阶段 --> 
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> 
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" 
ignoreCase="true" expand="false" /> 
</analyzer> 
</fieldType> 








重启 Solr 使 配置 生效 ， 然 后 进入 listing_new 核 心 的 Analysis 分 页 ， 在 Field Value (Query) 中 输入 “西红柿 ” ， 你 将 会 看 到 如 图 4-31 的 截屏 ， 分 析 的 结果 除了 中 文 分 词 IKT“ 西 红 柿 ”之 外 ， 还 有 同义词 
SF 所 添加 的 “番茄 ”。 此 时 在 Query 分 页 中 再 次 搜索 “listing title: 西红柿 ”， 你 将 获得 74 条 结果 ， 和 搜索 “listing title: 番茄 ”的 结果 一 样 多 。 





下 面 测 试 一 下 索引 阶段 的 同义词 设置 ， 可 以 在 查询 阶段 注释 同义词 filter， 然 后 添加 到 索引 阶段 的 分 析 器 内 ， 具 体 修改 如 下 : 








<!-- 处 理 中 文 的 字段 类 型 text_chinese --> 
<fieldType name="text chinese" class="solr.TextField"> 
<analyzer type="index" > <!-- 索引 阶段 --> 
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> 
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" 


ignoreCase="true" expand="false" /> 
</analyzer> 
<analyzer type="query"” > <!-- 查询 阶段 --> 


<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> 
<!--<filter class="solr.SynonymFilterFactory" synonyms="synonyms .txt" 


ignoreCase="true" expand="false" />--> 
</analyzer> 
</fieldType> 
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重启 Solr， 进 行 与 图 4-31 类 似 的 操作 ， 你 








得 如 图 4-32 的 结果 。 
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4-31 查询 阶段 的 同义词 已 经 生效 
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不 过 此 时 ， 你 搜索 “listing title: 西红柿 ”仍然 无 法 得 到 番茄 相关 的 商品 ， 之 前 已 经 提 到 过 关于 索引 阶段 的 修改 ， 必 须要 重建 索引 ， 否 则 会 无 法 生效 。 再 次 运行 DIH， 就 能 得 到 和 查询 阶段 同义词 方法 
同样 的 效果 。 


如 法 炮制 ， 你 可 以 在 synonyms.txt 中 添加 任意 数量 的 同义词 ， 这 样 就 能 增加 搜索 的 召回 率 。 完 整 的 managed-schema 和 synonyms.txt 样 例 可 以 参考 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/Solr/solr/listing new/conf 


加 入 同义词 后 重建 的 索引 位 于 : 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/Solr/solr/listing new/data.ik.syn 
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可 以 将 这 些 数据 文件 直接 导入 与 你 的 Solr 相 对 应 的 目录 中 ， 重 启 Solr 或 重新 加 载 (Reload) 核心 listing_new 来 生效 。 




















7. 基 于 Facet 的 类 目 或 属性 导航 
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4-32 索引 阶段 的 同义词 已 经 生效 





加 Community forum ” 同 Solr Query Syntax 


Solr 查 询 中 一 个 比较 特殊 ， 也 是 非常 有 价值 的 选项 是 切面 (Facet) 。 图 4-33 展 示 了 切面 (Facet) 的 基础 用 法 ， 仍 然 执行 “listing title: 番茄 ”的 查询 ， 不 过 这 次 是 在 Raw Query Parameters 里 输 





























&facet=truegfacet.field=category name 




















搜索 结果 中 的 细 分 类 和 导购 属性 都 是 必 不 可 少 的 ， 图 4-35 展 示 了 对 应 于 切面 ， 前 端 常见 的 样 例 。 























其 中 ，facet=true 表 示 采 用 切面 选项 ，facet.field=category_name 表 示 按 照 商 品 的 分 类 这 个 维度 来 计算 切面 信息 。 这 样 查询 出 来 的 搜索 结果 中 ， 还 会 附带 上 切面 统计 的 信息 ， 如 图 4-34 所 示 。 这 对 于 














除了 可 以 在 Solr 管 理 界面 中 查询 数据 以 外 ， 还 可 以 完全 通过 RESTFUL 风 格 的 链接 来 访问 Solr 索 引 中 的 数据 ， 返 回 的 内 容 可 以 按照 XML 或 JSON 等 格式 进行 组 织 ， 这 样 前 端 就 可 以 解析 搜索 结果 并 予以 展 


示 ， 如 图 4-36 所 示 。 
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Raw Query Parameters 








&facet=true&facet.field=categ' 











[json 


indent 
门 debugQuery 





加 dismax 
Oedismax 
Onhl 
Ofacet 

门 spatial 


门 spellcheck 


3 http://localhost:8983/solr/listing_new/select?=&facet.field=category_name&facet=true&indent=on&q=listing_ 


{ 


"responseHeader":{ 
"status":0, 
"QTime":26, 
"params":{ 
"gq":"listing title: 番 茄 "， 
"facet .field":"category_name"， 
"indent":"on", 
"facet":"true", 
"wt":"json", 
"_":"1485493189097"}}, 
"response":{"numFound":75,"start":0,"docs":[ 
1 
"listing_title":" 易 猫 生 鲜 海底 撞 1. 设置 切面 参数 
"category_name" : "海鲜 水 产 "， 
"id":"4095", 
"category_id"; 


击 执行 
宁 6 斤 小 西 


"category_name" : "新 鲜 水 果 "， 
"id":"16510", 

"category_id":11, 
"_version_":1557648597496889362}, 


"listing_tijAe":"parmalat 帕 玛 拉 特 圣 涛 天 然 鲜 榨 西红柿 番茄 汗 11 意大利 进口 零 食品 "， 


_version_":1557648596933804035}, 


"listing_title":" 佳 利 麦 海南 干 禧 红 圣 女 果 2 斤 装 小 西红柿 严 茄 新 鲜 水 果 "， 
"category_name" : "新 鲜 水 果 "， 

"id":"15184", 

"category_id":11, 

"_version_":1557648597392031757}，, 








"listing_title":" 果 蔬 乐 田 和 良品 珍珠 小 番 匣 4 斤 装 新 鲜 水 果 珍珠 圣 女 果 小 西红柿 "， 


nm 交 碑 外 nm 


图 4-33 ”设置 切面 Facet 的 查询 





到 目前 为 止 ， 我 们 只 是 修改 了 Solr 的 各 种 配置 文件 ， 写 了 一 些 SQL 语句 ， 而 没有 编写 任何 开发 的 代码 ， 一 个 基本 的 搜索 系统 就 此 搭建 完成 了 ， 而 且 还 可 以 通过 管理 界面 查看 集群 当下 的 基本 状态 ， 设 


8.SolrCloud 的 集群 搭建 


并 运行 查询 条 件 。Solr 的 强大 可 见 一 斑 。 











目前 为 止 ， 我 们 讨论 的 都 是 运行 在 iMac2015 上 的 Solr 单 机 模式 。 在 生产 环境 中 ，Solr Cloud 集 群 更 为 实用 。 相 对 之 前 的 版 本 而 言 ，Solr 6.x 版 本 的 Cloud 启 动 和 部 署 是 比较 简洁 的 ， 下 面 介 绍 其 基本 步 


为 了 不 混淆 单机 和 集群 的 内 容 ， 首 先 将 删除 原 有 的 核心 listing_new。 删 除 之 前 ， 为 了 避免 重复 工作 ， 我 们 先 将 listing_newy/conf/ 配 置 目录 保留 如 下 : 








[huangsean@iMac2015:/Users/huangsean/Coding/solr-6.3.0]cp -r 
//Users/huangsean/Coding/solr-6.3.0/server/solr/listing new/conf 
/Users/huangsean/Coding/listing new/ 








然后 在 单机 模式 下 ， 使 用 下 述 命令 删除 现 有 的 核心 listing_new， 并 停止 单机 模式 的 Solr: 





[huangsean@iMac2015:/Users/huangsean/Coding/solr-6.3.0]solr delete -c listing new 
[huangsean@iMac2015:/Users/huangsean/Coding/solr-6.3.0]solr stop 








下 Analysis "listing_title":" 易 猫 生 鲜 海底 捞 番茄 美 颜 火 锅 底 料 番茄 味 200g 袋 "， 
"category_name" : "海鲜 水 产 "， 
"id"s"4095", 
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”version ":1557648596455653379}] 





"facet_counts":{ 
&facet=true&facet.field=categ! "facet_queries":{}, 
二 Plugins / Stats "facet fields": 


wt 
om | json “category Rome ?| 
St Replication indent "饮品 " ,31， 
"饮料 " ,31， 
叶 Schema 口 debugQuery "方便 " ,16， 
"方便 面 ",16， 
dismax "16 
"饼干 " ,16， 
"新 鲜 " ,9， 
和 "水 果 " ,9， 
facet "坚果 " ,1， 
“水 产 wzr7 
spellcheck 
0, 滚动 到 结果 页 底 端 ， 可 以 看 
见 切面 统计 信息 。 这 里 列 出 
0 了 所 有 商品 的 分 类 以 及 每 个 
mm ",0, - 
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"facet_ranges :{}, 
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"facet_heatmaps":{}}} 
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图 4-34 在 查询 结果 的 最 后 ， 展 示 了 切面 信息 








在 iMac2015 上 使 用 -cloud 选 项 启动 集群 : 











[huangsean@iMac2015:/Users/huangsean/Coding/solr-6.3.0]solr -cloud 

Archiving 1 old GC log files to /Users/huangsean/Coding/solr-6.3.0/server/logs/archived 
Archiving 1 console log files to /Users/huangsean/Coding/solr-6.3.0/server/logs/ 
archived 

Rotating solr logs, keeping a max of 9 generations 

Waiting up to 180 seconds to see Solr running on port 8983 [/] 

Started Solr server on Port 8983 (pid=7775). Happy searching! 






































这 里 iMac2015 上 的 Solt 将 启动 内 谋 的 ZooKeeper， 端 口 为 9983， 用 其 来 管理 配置 文件 。ZooKeeper 是 一 个 为 分 布 式 应 用 提供 一 致 性 服务 的 软件 ， 提 供 的 功能 包括 : 配置 维护 、 域 名 服务 、 分 布 式 同 
步 、 组 服务 等 。Apache Sor、Kafka 和 Storm 等 都 是 使 用 ZooKeeper 来 进行 分 布 式 管 理 的 。 当 然 ， 你 也 可 以 连接 自己 所 搭建 的 ZooKeeper 集 群 ，ZooKeeper 集 群 搭建 的 详细 步骤 可 参见 本 书 的 11.5.5 节 。 
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下 面 ,在 MacBookPro2013 上 启动 Cloud 集 群 : 





[huangsean@MacBookPro2013:/Users/huangsean/Coding/solr-6.3.0]solr -cloud -z 192.168.1.48:9983 





最 后 是 在 MacBookPro2012 上 启动 Cloud 集 群 : 





[huangsean@MacBookPro2012:/Users/huangsean/Coding/solr-6.3.0]solr -cloud -z 192.168.1.48:9983 








注意 两 个 命令 都 需要 设置 ZooKeeper 的 服务 器 ， 也 就 是 首 个 启动 Solr Cloud 的 iMac2015， 其 IP 为 192.168.1.48， 端 口 为 9983。 这 样 MacBookPro2013 和 MacBookPro2012 就 会 连接 该 ZooKeeper 的 服 
并 获取 相应 的 集合 (collection) 配置 文件 ， 保 持 集 群 内 的 一 致 。 三 台 机 器 的 Solr 都 启动 完毕 之 后 ， 使 用 下 面 的 命令 创建 新 的 collection: 




















闹 





[huangsean@iMac2015: /Users/huangsean/Coding/solr-6.3.0]solr create -c listing collection -d /Users/huangsean/Coding/listing new/conf/ -shards 3 -replicationFactor 2 -n listing 


Connecting to ZooKeeper at localhost:9983 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
Uploading /Users/huangsean/Coding/solr-6.3.0/listing new/conf for config listing collection to ZooKeeper at localhost:9983 


Creating new Collection 'listing collection' using command: 
http://localhost:8983/solr/admin/collections?action=CREATE&name=listing_ 
collectiongnumShards=3&replicationFactor=2&maxShardsPerNode=6&collection.configName=listing collection 


{ 
"responseHeader":{ 
"status":0, 
"QTime":34407}, 
"success":{"192.168.1.48:8983 solr":1{ 
"responseHeader":{ 
"status":0, 
"QTime":33220}, 
"core":"listing collection shard2 replica2"}}} 
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S Ir Ei Request-Handler (qt) E3 http://localhost:8983/solr/listing_new/select?=&facet.field=category_name&facet=true&indent=on&q=|listing. 





/select 








common "responseHeader":{ 个 
编 Dashboard q "status":0, 


傅 Logging listing_title: 番 匣 SR 可 以 通过 这 里 提 示 的 REST 风 
"q":"listing title: 番 茄 "， 格 链接 9 获取 JSON 或 和 XML 格 

闻 Ce "facet .field":"category_name" ZE 

G 四 i 式 的 结果 
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号 Thread Dump 





eq?=&facet.field=cate 


一 一 一 一 一 一 一 一 一 一 一 一 一 
listing_new 人 Re 


Start, rows "responseHeader":{ 
"status":0, 
便 Overview 0 "QTime":0, 
"params":{ 
时 Analysis fl "q":"listing title: 番 茄 "， 
r 1 "facet.field":"category name", 

"indent":"on", 

"rows":"3", 

"facet":"true", 

"wt":"json"}}, 
"response":{"numFound":75,"start":0,"docs":[ 






































"listing_title":" 易 猫 生 鲜 海底 捞 番茄 美 颜 火 锅 底 料 番茄 味 200g 袋 "， 
"category_name" : "海鲜 水 产 "， 

"id":"4095", 

"category_id":3, 

”version _":1557648596455653379}, 


"listing_title":" 佳 利 麦 海南 千 禧 红 圣 女 果 6 斤 小 西红柿 番茄 新 鲜 水 果 "， 
"category_name" :" 新 鲜 水 果 "， 

"id":"16510", 

"category_id":11, 

"_version _":1557648597496889362}, 


"listing_title":"parmalat 帕 玛 拉 特 圣 涛 天 然 鲜 榨 西红柿 严 茄 秆 11 意大利 进口 零 食品 "， 
"category_name" :" 饮 料 饮品 "， 
"id":"8524", 
"category_id":7, 
"_version_":1557648596933804035}] 
}， 
"facet_counts":{ 
"facet_queries":{}, 
"facet_fields":{ 
"category_name":[ 
"饮品 " ,31， 
"饮料 " ,31， 

















4-36 通过 RESTFUL 风 格 的 链接 ， 为 前 端 展示 提供 数据 





创建 命令 和 单机 版 类 似 ，-c 表 示 collection 的 名 称 ， 不 过 目前 三 台 机 器 都 运行 在 Cloud 模 式 下 ， 因 此 我 们 还 需要 另外 添加 一 些 参数 ， 具 体 如 下 。 





: -d: 告知 配置 文件 的 位 置 。 

“ -shards: 切片 的 数量 ， 这 里 设置 为 3。 

“ -teplicationFactor: 副本 的 数量 ， 这 里 设置 为 2。 

: -n: 配置 文件 在 ZooKeeper 上 的 名 称 。 
返回 的 状态 码 为 0， 显 示 操作 成 功 。 访 问 如 下 三 台 机 器 的 Solr UI 页 面 : 
http:Wimac2015: 8983/solr/#/listing_collection/collection-overview 
http://macbookpro2013: 8983/solr/#/listing_collection/collection-overview 


http://macbookpro2012: 8983/solr/#/listing_collection/collection-overview 





你 将 看 到 类 似 图 4-37 的 截屏 ， 显 示 了 新 建 collection 的 初始 状态 。 可 选择 任何 一 台 机 器 查看 Cloud 集 群 各 台 机 器 的 状态 : 


http://imac2015: 8983/solr/#/~cloud 


(和 % Collection: listing_collection 
Solr 


Config listing_collection 
name: 
Max shards 6 
per node: 


SS Logging Replication 2 
factor: 


全 Cloud Auto-add © 


同 collections replicas: 
Router compositeld 


全 Java Properties name: 


纺 Dashboard 


写 Thread Dump 同 shards 


listing_collection 
@ Range: 80000000-d554fff 


p Analysis Active: 祖 
Replicas: listing_collection_shard1_replical 
生 Dataimport listing_collection_shard1_replica2 


前 Documents 


必 Files 
月 Query Range: d5550000-2aa9ffff 
Active: 依 


Replicas: listing_collection_shard2_replica2 
圈 Sschema listing_collection_shard2_replical 


Core Selector 了 


ee Stream 


Range: 2aaa0000-7fffffff 
Active: 镶 
Replicas: listing_collection_shard3_replical 
listing_collection_shard3_replica2 
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图 4-37 ”新建 collection 的 初始 状态 


可 以 看 到 如 图 4-38 的 内 容 ， 显 示 集群 共有 3 人 台 机 器 ， 都 是 正常 的 状态 。 而 其 上 分 布 了 6 份 分 片 (三 份 分 片 x 两 个 副本 ) 。 而 且 每 一 份 分 片 的 两 个 副本 都 位 于 不 同 的 机 器 上 ， 容 灾 性 更 好 。 





Use original UI @ 





(也 192.168.1.48 

Of 人 过 192.168.1.78 
一 -O192.168.1.28 

192.168.1.78 


@ Dashboard 一 O192.168.1.48 
192.168.1.28 


加 Logging 





守 Graph (Radial) 


De Dump @ Leader 
OO Active 
转 Collections O Recovering 
O Down 
© Recovery Failed 
写 Thread Dump Gone 


和 Java Properties 
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4-38 Solr Cloud 的 概况 ， 三 台 机 器 都 处 于 绿色 正常 的 状态 ， 共 承载 了 6 份 分 片 





























在 任意 一 台 机 器 上 ， 选 择 collection 中 的 schema 分 页 进行 查看 ， 你 将 看 到 字段 的 定义 等 配置 和 之 前 单机 的 一 致 ， 例 如 图 4-39 中 ， 字 段 listing_title 也 是 采用 了 IK 中 文 分 词 和 同义词 filter。 而 且 ， 这 个 
schema 的 配置 和 其 他 两 台 机 器 上 的 配置 也 是 完全 一 样 的 。ZooKeeper 的 管理 生效 了 。 








在 DIH 配 置 好 的 iMac2015 上 ， 再 次 执行 基于 DIH 的 索引 。 在 建立 索引 的 过 程 中 ，Solr Cloud 将 在 集群 内 自动 地 同步 和 分 发 索引 的 分 片 。 索 引 完 毕 后 ， 挑 选 某 台 机 器 上 的 某 个 核心 (或 者 说 是 分 片 ) ， 你 
将 发 现 该 分 片 只 包含 了 三 分 之 一 左右 的 商品 ， 大 约 9000 多 件 ， 这 和 3 份 切片 的 设置 是 一 致 的 ， 如 图 4-40 所 示 。 














虽然 每 份 分 片 只 有 部 分 数据 ， 但 是 Solr Cloud 在 查询 的 时 候 会 聚合 不 同 机 器 返回 的 结果 。 保 证 查询 结果 的 完整 性 ， 图 4-41 显 示 搜 索 “listing title: 西红柿 ”的 结果 数 仍然 为 74。 


9.SolrCloud 集 群 和 Solr 单 机 的 比较 





从 索引 和 查询 的 功能 上 来 看 ， 单 机 和 集群 式 的 Solr 并 没有 什么 区 别 。 不 过 ， 集 群 会 提供 更 好 的 容 灾 性 。 例 如 ， 我 们 特意 将 iMac2015 上 的 Solr 服 务 关闭 ， 你 将 看 到 如 图 4-42 所 示 的 Cloud 状 
态 ，iMac2015 所 对 应 的 IP 192.168.1.48 已 经 变 灰 ， 表 示 无 法 服务 。 但 是 ， 由 于 索引 的 分 片 都 是 两 个 副本 ， 因 此 由 于 iMac2015 下 线 而 受到 影响 的 分 片 shard1 和 shard3， 都 可 以 在 另外 两 台 机 器 上 找到 备份 ， 
于 查询 的 聚合 ， 因 此 最 终结 果 不 会 受到 影响 。 这 种 情况 下 ， 你 可 以 尝试 不 同 的 查询 条 件 ， 看 看 结果 是 否 会 有 遗漏 一 一 答 案 当然 是 “不 会 ”。 























co | 国 Add Field ， 辐 Add Dynamic Field | 司 Add Copy Field | 


Field: listing_title 


和 Dashboard Field Field-Type: org.apache.solr.schema. TextField 
图 Logging listing_title Docs; 9,451 


全 cloud Copied to Flags: Indexed Tokenized Stored 


-text- Properties ~ a 4 


由 Collections Type 
Schema 4 EA 外 
text_chinese 


且 Java Properties Index EA 4 4 


lete fiel 
号 Thread Dump XK delete field 


listing_collection Unique Key Field 


全 Oe id @ Query Analyzer: org.apache.solr.analysis.TokenizerChain 日 


Global Similarity: 
时 Analysis Schemasimilarity. Default: Tokenizer: org.witea.analyzer.lucene.IKTokenizerFactory 
BM25(kl=1.2,b=0.75) 下 | class: org.wltea.analyzer.lucene.IKTokenizerFactory 
» 站 
图 luceneMatchVersion: 6.3.0 


@ Index Analyzer: org.wltea.analyzer.lucene.IKAnalyzer 日 


时 | Dataimport 





辕 Documents Token Filtersorg.apache.lucene.analysis.synonym.SynonymFilterFactory 
刷 Files © expand 

fA Query | 下 | class: Solr.SynonymFilterFactory 

ignoreCase 

恩 synonyms: synonyms.txt 

恩 luceneMatchVersion: 6.3.0 


we Stream 





| 

| | @ Load Term Info 
| 

Core Selector Ey) | N.B. Loaded from a 


single core - not from 
the whole collection. 
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图 4-39 某 台 机 器 上 collection 的 配置 和 之 前 单机 上 的 一 致 


此 外 ， 集 群 拥有 更 多 的 硬件 资源 ， 因 此 正常 情况 下 可 以 提供 更 好 的 性 能 。 为 了 证 明 这 点 ， 这 里 我 们 将 采用 一 款 常用 的 自动 化 测试 工具 一 Apache JMeter， 分 别 对 单机 的 Solr 和 Solr Cloud 集 群 进行 测 
试 。JMeter 中 的 每 个 任务 都 由 测试 计划 (Test Plan) 来 组 成 ， 每 个 测试 计划 又 包含 了 各 种 元 素 (Elements) ， 我 们 可 以 通过 组 合 不 同 的 元 素 ， 来 构造 定制 的 测试 计划 。 有 关 JMeter 的 更 多 介绍 ， 请 参看 
《大 数据 架构 商业 之 路 》 的 7.2.3 节 。 














目前 ，JMeter 最 新 的 可 下 载 版 本 为 3.1， 可 以 通过 如 下 链接 下 载 : 


http://jmeter.apache.org/download jmeter.cgi 

















解压 后 ， 运 行 目 录 中 bin/jmeter 命 令 ， 会 显示 如 图 4-43 所 示 的 主 界面 ， 首 先 在 主 界面 建立 测试 计划 。 














Solr 


编 Dashboard 
加 Logging 
全 Cloud 


屿 collections 


四 Java Properties 


写 Thread Dump 


Collection Selec... v 


listing_collectio... ^ 


[| ql 


listing_collection 
shardl replica2 





国 Statistics 


Last 4 minutes ago 
Modified: 


Num Docs: 9669 


Max Doc: 9669 
Heap -1 
Memory 
Usage: 
Deleted 0 
Docs: 
Version: 6 
Segment 1 
Count: 


Optimized: Ww 


Current: 狼 


“GE Replication (Master) 


Version 


Master (Searching) 1485563970383 


Gen 


2 


是 Instance 


CWD: 
Instance: 
Data: 
Index: 


Impl: 


/Users/huangsean/Coding/solr- 
6.3.0/server 
/Users/huangsean/Coding/solr- 


6.3.0/server/solr/listing_collection_shard1 


/Users/huangsean/Coding/solr- 


6.3.0/server/solr/listing_collection_shardlre 


/Users/huangsean/Coding/solr- 


6.3.0/server/solr/listing_collection_shard1 
org.apache.solr.core. NRTCachingDirectoryFa 


Healthcheck 


Size Ping request handler is not configured with a 
healthcheck file. 


1.85 MB 


一 


re 


a Master (Replicable) 1485563970383 2 — 
listing_collection_ 


shard3_replical 
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图 4-40 某 台 机 器 上 的 某 个 分 片 ， 承 载 了 三 分 之 一 的 数据 


/select 


S [ 化 Request-Handler (qt) 3 http://192.168.1.48:8983/solr/listing_collection/select?indent=on&q=listing_title: 西 红 顶 &wt=json 
= 
OL ]|， 


common 
编 Dashboard q 


全 Logging listing_title: 西 红榜 


全 Cloud 


"responseHoader"”:{ 
“skConnected" :true, 
“status :0, 
"QTrime":68, 
"params™:{ 
fq "q":"listing title: 西 红 述 "， 
"indent":"on", 
"wt":"json", 
”31 1485564340144"}}， 
"response if nusFound" 174，"start"i0， "maxScore":8.5708885, "doos":{ 
‘ 
"1isting_title":" 易 猎 生 鲜 海底 捞 番茄 美 颜 火 锅 底 料 番茄 味 200g 袋 "， 
"category_name" : "海鲜 水 产 "， 
"id":"4095", 
“category_id" 137 
"version_":11557726722642673665}, 


让 Collections 
Java Properties 
号 Thread Dump 


listing_collection ™ 
全 Overview 


于 Analysis 


人 久 Dataimport df 


- "1isting title": "统一 看 药 汁 335ml 鱼 "， 
fb Documents 


届 ries Raw Query Parameters 


@]° 


ww 
6 Stream f json 
辆 Schema indent 


debugQuery 
Core Selector MM 


dismax 
edismax 
hl 
Ofacet 

口 Spatial 

7 spellcheck 


Execute Query 


“category 了 _name“: "议和 料 饮品 "， 

“83 "7393"。 

"category_id":7, 
"version_":1557726723106144256}, 


"1isting_title":" 统 一 看 匣 汁 180ml 鱼 "， 
"category_name":" 人 饮料 饮品 "， 
"ad"s"7733"， 

"category_id":7, 
"_version_":1557726723161719791}, 


"1isting_title":" 中 粮 中 河 赤 茄 汁 245m1*， 
"category_name": "饮料 饮品 "， 

"id":"8128", 

"category_id":7, 
"_version_":1557726723230924802}, 


"1isting_title":" 闲 起 装饰 饼干 田园 帮 茄 味 90g 我 "， 
"category_name": "饼干 "， 


图 4-41 Cloud 中 的 查询 经 过 聚合 后 ， 不 会 遗漏 结果 








他 
olr Sm 192.168.1.78 
192.168.1.28 

192.168.1.78 


因 Dashboard 
192.168.1.28 


仿 Logging 


[@ Tree 
craph 


案 Graph (Radial) 


使 Dump @ Leader 
O Active 

OO Recovering 

人 Java Properties O Down 

© Recovery Failed 


Gone 


SH Collections 


号 Thread Dump 


Collection Selec... 











图 4-42 iMac2015 (192.168.1.48) 的 宕 机 ， 尚 不 会 影响 查询 的 完整 性 


7 四 [IE Test Plan 


©} Thread GroupForSingleSol 二 全 
v A HTTP Request Name: Test Plan 
|ak Aggregate Graph 
|ak Graph Results 
B®) workBench User Defined Variables 


| Value 


Detail Add from Clipboard Delete Down 








Comments: 








[Run Thread Groups consecutively (i.e. run groups one at a time) 
L Run tearDown Thread Groups after shutdown of main threads 


| | Functional Test Mode (i.e. save Response Data and Sampler Data) 
Selecting Functional Test Mode may adversely affect performance. 


Add directory or jar to classpath Browse... Delete | Clear 





Library 








4-43 ”建立 测试 计划 











然后 在 测试 计划 中 增加 线程 组 ， 并 将 其 命名 为 Thread Group For Solr， 如 图 4-44 所 示 。 常 用 的 配置 是 线程 数 ， 也 可 以 认为 是 并 发 数 ， 这 里 设置 为 30， 还 有 将 循环 次 数 设置 为 5000 次 。 


























接着 ， 在 线程 组 Thread Group For Solr 中 增加 样 例 生成 器 HTTP Request， 如 图 4-45 所 示 。 常 用 的 配置 是 服务 器 IP、 端 口 和 HTTP 请 求 路 径 。 首 先是 通过 iMac2015 自 己 对 部 署 在 其 上 的 单机 版 Solr 进 行 
测试 ， 因 此 服务 器 IP 是 127.0.0.1， 端 口 是 8983， 路 径 是 /solr/listing_new/select?indent=on&q=*: *&wt=json， 以 及 请 求 方式 ， 这 里 是 POST。 





























标 Test Plan 
C7 Tsedi Croup 
HTTP Request Name: Thread Group For Solr_ 
lek Aggregate Graph 


| Graph Results IComments: 
Wrench FAction to be taken after a Sampler error 


©@ Continue ( Start Next Thread Loop “ ) Stop Thread ( ) Stop Test () Stop Test Now 


FThread Properties 
Number of Threads (users): 30 











Ramp-Up Period (in seconds): 1 
Loop Count: | | Forever 5000 


| | Delay Thread creation until needed 
|_| Scheduler 


-Scheduler Configuration 
Duration (seconds) 


Startup delay (seconds) 
Start Time 2017/01/27 22:10:22 


End Time 2017/01/27 22:10:22 





lv & TestPlan 
Y Thread Group For Solr 1 山 1 P Request 





El Name: HTTP Request 
全 Aggregate Graph 
| Graph Results Eomments, 
WorkBench 


| Basic | Advanced 


TWeb Server [Timeouts (milliseco 
Server Name or IP: 127.0.0.1 Port Number: 8983 | ‘(Connect: | 


FHTTP Request 


Implementation: 局 Protocol [http]: Method: POST 


Path: /solr/listing_new/select?indent=on&q=**&wt=json 


(|) Redirect Automatically Follow Redirects Use KeepAlive [ | Use multipart/form-dataforPOST | | 


| Parameters | Body Data Files Upload 
Send Parameters With the Request: 


| Name: Value 


Detail Add Add from Clipboard Delete Up 











TProxy Server 











图 4-45 ”添加 样 例 生成 器 








这 样 ， 我 们 就 完成 了 





一 个 最 基本 的 测试 计划 ， 点 击 工具 栏 上 绿色 三 角形 的 “启动 ”按钮 就 可 以 开始 进行 测试 。JMeter 将 按照 配置 ， 产 生 30 个 并 发 线程 ， 请 求 链接 如 下 : 


http://127.0.0.1: 8983/solr/listing new/select?indent=on&q=*: *&wt=json 


并 循环 测试 5000 次 。 点 击 “Aggregate Graph”， 得 到 的 结果 如 图 4-46 所 示 。 








ingleSolrjmx) - A 


: 错 误 率 为 0 0 
v BB TestPlan 


v 洁 Thread Group For Solr Aggregate Graph EE 没有 发 生 错误 MS 
时 .HTTP Ee 

I 

rah eilts Comments: 


给 
司 WorkBench FWrite results to file / Read from file 
Filename | 











Name: Aggregate Craph _ 








#Samples e i 90%Line 95%Line 99% Line Min Max 
114355 4 6 368 0 10550 1253.6/sec 
114355 4 6 368 0 1055 K 1253.6/sec 











目前 一 共 模 拟 请 求 用 psplaycnpn 

11 万 多 次 Column settings 、 、 
Columns to display: Average | 啊 应 时 间 统 计 平 均 
Value font: | Sans Serif Size: 11 毫秒 ， 最 长 10 秒 





[| Column label selection: 
FTitle 
Graph title: 
Font: | Sans Serif Size: | 16 style: | Bold ”加 


-Graph size 
Dynamic graph size Width: Height: 
































图 4-46 ”使 用 单机 的 Soltr 时 ， 并 发 为 30 的 压 测 数 据 总 结 
可 以 看 到 ， 在 十 多 万 次 的 模拟 请 求 中 ， 








响应 时 间 平均 是 11 毫 秒 ， 中 位 数 是 1 毫秒 ， 最 大 和 最 小 时 间 分 别 是 0 毫秒 和 10 秒 ，90% 的 请 求 是 在 4 毫秒 内 完成 的 。 没 有 出 现 超时 或 无 法 访问 的 错误 ， 知 吐 量 是 
1253 每 秒 。 这 证 明 绝 大 部 分 的 请 求 都 是 在 近乎 0 毫秒 的 时 间 内 完成 的 []， 但 是 仍然 有 极 少数 请 求 超过 了 10 秒 。 


为 了 进行 对 比 ， 我 们 再 次 启动 包含 3 台 机 器 的 Solr Cloud， 然 后 将 HTTP 请 求 的 服务 器 IP 修 改 为 三 台中 的 任意 一 个 ， 此 时 就 会 发 挥 集群 的 作用 ， 参 考 图 4-47 你 会 发 现 性 能 有 所 提升 ， 吞 吐 量 达到 了 2800 多 
每 秒 ， 而 最 长 的 耗 时 降低 到 了 5 秒 左右 。 























4.6.3 ”基于 Elasticsearch 的 实现 


除了 Solr 的 基本 实践 ， 我 们 对 Elasticsearch 的 实践 也 很 感 兴趣 。 下 面 就 来 看 看 作为 开源 搜索 引擎 的 流行 项 目 














， 两 者 在 应 用 上 究竟 有 哪些 异同 点 。 














1.Elasticsearch 的 准备 




















样 ， 我 们 首先 将 使 用 iMac2015 这 台 机 器 部 署 单 机 版 的 Elasticsearch。 你 可 以 在 https://www.elastic.co/downloads/elasticsearch 下 载 最 新 版 本 的 Elasticsearch 压 缩 包 ， 这 里 使 用 





的 是 5.1.2 版 。 


Y B Testplan 
时 狗 Thread Group For Solr Aggregate Graph 
Y A HTTP Request Name: Aggregate Graph 
~ . 
o Graph Results IComments: 
B®) workgench “Write results to file / Read from file 


| #Samples Average Median 90%Line 95%Line 99%Line “Min Max Error% Throughput 
IHTTP Request 150000 10 8 10 11 14 4 5018 0.00% 2869.3/sec 
TOTAL 150000 10 8 10 11 14 4 5018 0.00% 2869.3/sec 


_ Display Graph 
FColumn settings 


Value font: Sans Serif Size: 10 较 Style: Normal Draw outlines bar? @ Show number gro 


| Column label selection: 


Columns to display: Average _ | Median _ | 90% Line _| 95% Line 


FTitle 
Graph title: 


Font: Sans Serif Size: 16 日 Style: ”Bold 日 


-Graph size 
Dynamic graph size Width: Height: 




















图 4-47 ”使 用 3 台 机 器 组 成 Solr Cloud 时 ， 并 发 为 30 的 压 测 数据 总 结 











这 里 稍微 说 明 一 下 Elasticsearch 的 版 本 问题 。2016 年 10 月 Elasticsearch 的 5.0 版 正式 发 布 ， 在 此 之 前 ,其 版 本 一 直 是 2.x。 为 什么 有 如 此 大 的 版 本 跨度 ? 对 Elasticsearch 有 所 了 解 的 读者 可 能 会 知 
道 ，Elasticsearch 一 直 以 来 和 LogStash、Kibana 组 成 了 ELK Stack， 为 大 型 日 志 系 统 提 供 一 站 式 的 解决 方案 。 最 近 ，Elasticsearch 的 开发 者 们 正在 努力 整合 ELK 及 Beats， 为 此 需要 统一 大 家 的 版 本 号 ， 而 到 
了 2016 年 Kibana 的 版 本 已 经 达到 了 4.x， 因 此 最 终 所 有 子 项 目的 版 本 号 都 直接 上 升 到 了 5.x。 而 Elasticsearch 5.1.2 和 Solr 6.3 版 本 一 样 ， 也 使 用 了 Lucene 6.3 作 为 其 底层 。 






























































将 下 载 后 的 包 解压 到 /Users/huangsean/Coding/ 目 录 中 之 后 ， 设 置 环境 变量 如 下 : 





export ES HOME=/Users/huangsean/Coding/elasticsearch-5.1.2 
export PATH=$PATH:$ES HOME/bin 








环境 变量 生效 之 后 ，Elasticsearch 的 服务 启动 也 是 非常 简单 的 ， 使 用 如 下 代码 即 可 : 











[huangsean@iMac2015:/Users/huangsean/Coding/elasticsearch-5.1.2/bin]elasticsearch 
[2017-01-29T18:17:06,543] [INFO ] [o.e.n.Node [] initializing http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/T 
[2017-01-29T18:17:06, 615] [INFO ] [o.e.e.NodePnvironment 


[mwpgtJm] using [1] data paths, mounts [[/ (/dev/disk1)]], net usable space [143gb], net total space [464.7gb], spir 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 











系统 提示 表明 Elasticsearch 服 务 已 经 启动 成 功 ， 运 行 在 默认 端口 9200 上 ， 访 问 链接 http://localhost: 9200， 你 将 得 到 类 似 图 4-48 的 截屏 。 











localhost:9200 


"name" : "mWpgtJm", 
"cluster name" "elasticsearch", 
"cluster uuid" "M6gqHTQ15SC2Y-MTVNhOm5A", 
"version" : { 
"number" : "5.1.2", 


"build hash" : "c8c4c16", 
"build date”: "2017-01-11T20:18:39.1462", 
"build snapshot" false, 
"lucene version" "6.3.0" 
}， 


"tagline" : "You Know, for Search" 





图 4-48 ”EElasticsearch 启 动 后 的 欢迎 信息 





从 图 4-48 中 你 可 以 看 出 ， 相 对 于 Solr 而 言 ，Elasticsearch 提 供 的 信息 更 加 简洁 ， 都 是 基于 文字 的 版 本 信息 ， 包 括 集群 名 称 、ID、 版 本 ， 等 等 。 








在 Elasticsearch 中 索引 文档 也 是 相当 直观 和 简单 的 。 如 果 需 要 在 索引 temp_index 中 的 类 型 temp_ type 中， 创建 一 篇 系统 id (_id) 为 1 的 文档 ， 那 么 可 以 使 用 curl 命 令 进行 如 下 操作 : 

















[huangsean@iMac2015: /Users/huangsean/Coding/elasticsearch-5.1.2]curl -XPUT 'localhost:9200/temp index/temp type/1?pretty' -H 'Content-Type: application/json’' -d '{"id":"-1", "] 
{ 


"_index" : "temp index", 
type" :; "temp type", 
:nlnm 





本 
"” version" : 1, 


DER 2 2 
"successful" : 1, 
"failed" : 0 


1 
"created" : true 





该 命令 直接 访问 了 localhost: 9200/temp_index/temp_type/1 的 端点 ， 指 定 了 索引 名 、 类 型 名 和 系统 id。Solr 中 是 没有 设计 类 型 (type) 的 。Elasticsearch 让 用 户 在 同一 个 索引 中 定义 不 同 的 类 型 ， 以 
便 从 逻辑 上 区 分 多 个 数据 的 集合 ， 可 以 认为 其 是 另 一 个 额外 的 字段 。 而 参数 pretty 格 式 化 了 系统 执行 后 返回 的 结果 ，-d 后 的 内 容 就 是 要 索引 的 文档 内 容 ， 以 JSON 格 式 传送 。 从 返回 结果 可 以 看 
出 ，Elasticsearch 已 经 成 功 地 创建 了 该 文档 。 你 会 发 现 ， 这 里 并 没有 像 Solr 的 schema 和 那样 定义 字段 的 类 型 ， 等 等 。Elasticsearch 是 支持 默认 的 字段 定义 ， 被 称 为 映射 (mapping) 。 当 索引 一 篇 文章 的 时 
候 ， 系 统 会 根据 一 定 的 规则 自行 判断 。 如 此 设计 的 好 处 在 于 简化 了 使 用 者 的 操作 ， 问 题 在 于 可 能 会 使 初学 者 忽视 一 些 字段 定义 的 问题 ， 导 致 潜在 的 问题 。 我 们 可 以 访问 这 个 链接 查看 目前 的 映射 : 






































http://localhost: 9200/temp _index/ 

















查看 的 结果 类 似 于 图 4-49[ 外 ， 从 图 中 你 将 看 到 category_id、category_name、id 和 listing_title 字 段 的 类 型 都 是 “text”。 而 整个 索引 有 两 份 分 片 (shard) 和 1 个 副本 (replica) 。 


和 GC © localhost:9200/temp_index/ 


// 20170129195832 
// http://localhost:9200/temp_index/ 


{ 
"temp_index": 工 
"aliases": { 


}, 
| ings": { 
"temp_type": { 
"properties": { 
"category_id": { 
"ype": "text”, 
"fields": { 
"keyword": { 
"type": "keyword", 
"ignore_above": 256 


‘OONNOUMWPPWN 


} 
} 

}， 

"category_name": { 
"type": "text", 
"fields": { 

"keyword": { 
"type": "keyword", 
"ignore_above": 256 





28 

29 }， 

30 ， dns 六 

31 “tyPe": "text", 

Ze "fields": { 

S30 "keyword": { 

34 "type”": "keyword", 
ES "ignore_above": 256 
36 } 


37 + 


38 }， 


39 "listing_title": { 

40 "type": "text", 

41" "fields": { 

42 "keyword": { 

43 "type": "keyword", 
44 "ignore_above": 256 


"creation_date": "1485748102091", 
"number_of_shards": "5", 


"number_of_replicas": "1", 
"uuid": "sLU1Z101RLK7bIhrLYKdtQ", 
"version": { 

"created": "5010299" 


: "temp_index" 





图 4-49 ”Elasticsearch 为 temp_index 生 成 的 默认 映射 
你 还 可 以 通过 下 述 链接 访问 刚刚 索引 的 文档 : 
http://localhost: 9200/temp index/temp type/1 


结果 如 图 4-50 所 示 ， 之 前 curl 命 令 传送 的 JSON 内 容 已 经 被 索引 为 一 篇 Elasticsearch 的 文档 。 





€© 人 CC fo localhost:9200/temp_index/temp_type/1 





// 20170129213129 
// http://localhost:9200/temp_index/temp_type/1 


v| 

"_index": "temp_index", 

"_type": "temp_type", 

a 

"_version": 1, 

"found": true, 

"_source": { 
a 
"listing_title": "测试 商品 "， 
"category_id": "-1", 
"category_name" : "测试 目录 " 


由 
2 
3 
4 
5 
6 
7 
8 
9 








4-50 在 Elasticsearch 中 索引 的 第 一 篇 文档 











通过 下 述 命令 ， 我 们 再 次 索引 两 篇 文档 : 





[huangsean@iMac2015: /Users/huangsean/Coding/elasticsearch-5.1.2]curl -XPUT 'localhost:9200/temp index/temp type/2?pretty' -H 'Content-Type: application/json' -d '{"id":"-2", "] 
{ 


"_index" : "temp index", 
"_type" :; "temp type", 
Re 
_version Ty 
"result "created", 
shards™" : { 
Motal” : 2 
"successful" : 1, 
"failed" : 0 
] 
"created" : true 


[huangsean@iMac2015: /Users/huangsean/Coding/elasticsearch-5.1.2]curl -XPUT 'localhost:9200/temp index/temp type/3?pretty' -H 'Content-Type: application/json' -d '{"id":"-3", "] 
{ 


"_index" : "temp index", 
"_type" : "temp type", 
Ss 
"version" : 1, 
"result" : "created", 
”shards" : { 
a” 
"successful" : 1, 
"failed" : 0 
] 
"created" : true 


} 








Elasticsearch 的 查询 也 很 简单 ， 可 以 访问 相应 的 索引 和 类 型 的 _search 端 口 。 例 如 ， 查 询 temp_index 中 全 部 的 文档 : 














http://localhost: 9200/temp_index/_search 
然后 查询 temp_index 中 temp_type 的 全 部 文档 : 
http://localhost: 9200/temp _index/temp type/_search 


由 于 目前 temp_index 中 只 有 一 个 类 型 temp_type， 所 以 两 者 的 搜索 结果 一 致 。 如 果 需 要 指定 关键 词 ， 那 么 可 以 使 用 q 参 数 ， 默 认 搜 索 全 部 字段 : 





http://localhost: 9200/temp _index/temp type/_search?q= 测 试 
2. 连 接 MySQL 和 Elasticsearch 


和 Solr 相 比 ， 将 MySQL 等 数据 库 中 的 数据 导入 Elasticsearch 是 比较 麻烦 的 。 目 前 为 止 ，Elasticsearch 自 身 并 未 提供 类 似 DIH 的 数据 导入 功能 ， 需 要 依赖 第 三 方 插件 。 在 Elasticsearch 2.x 版 本 时 代 ， 比 较 
流行 的 插件 包括 elasticsearch-jdbc 和 go-mysql-elasticsearch， 其 使 用 方法 和 Solr 的 DIH 比 较 相 似 。 但 是 到 了 5.x 版 本 ， 尚 无 直接 可 用 的 兼容 性 插件 。 下 面 我 们 介绍 一 种 利用 Elasticsearch 批 处 理 接口 的 过 渡 
方法 。 













































































什么 是 Elasticsearch 的 批量 处 理 接口 ? 之 前 我 们 的 3 个 索引 示例 中 每 次 只 索引 一 篇 文档 。 如 此 大 规模 的 数据 处 理 ， 将 使 得 应 用 程序 必须 等 待 Elasticsearch 的 答复 才能 继续 ， 由 此 也 导致 了 性 能 上 的 损失 ， 




















而 我 们 需要 更 快 的 索引 速度 。Elasticsearch 提 供 了 批量 的 bulk APl， 让 你 可 以 每 次 索引 多 篇 文档 ， 操 作 完 成 之 后 ， 你 将 获得 包含 全 部 索引 请 求 结果 的 答复 。 为 了 实现 这 个 目标 ， 你 需要 发 送 HTTP POST 请 求 
到 _bulk 端 点 ， 访 问 一 定格 式 的 数据 。 图 4-51 展 示 了 该 格式 的 样 例 ， 它 的 要 求 具体 如 下 。 




















~/Coding/elasticsearch-5.1.2/bulk.index.test.txt - 


{ "index" : { ”index" : "temp_index", "_type" : "temp_type" } } 
"id" : "-11"，"Listing_titLe" : "批量 处 理 1"，"category_id" : "-5"，"category_name'" : "批量 处 理 目录 " 
"index" : { "index" : "temp_index", "_type" : "temp_type" } } 
"id" :"-12", "listing_title"” : “批量 处 理 2"，"category_id" :"-5", "category_name"” : "批量 处 理 目录 " 
"index" : { "_index" : "temp_index", "_type" : "temp_type" } } 
"id"” :"-13",， "listing_title"” :批量 处 理 3"，"category_id"”:"-5", "category_name"” : "批量 处 理 目录 " 
"index" : { "_index" : "temp_index", "_type" : "temp_type" } } 
"id"”; "~-14"， "listing_title"” ; "批量 处 理 4"，"category_id"” :;"-5", "category_name"” :; "批量 处 理 目录 " 
"index" : { "_index" : "temp_index", "_type" : "temp_type" } } 
"id" ; "-15"，"Listing_titLe" ; "批量 处 理 5"，"category_id"” :; "-5",， "category_name"” :; "批量 处 理 目录 " 


[ 
hy rh chy chy ch ch rh ch ch 


1 
2 
3 
4 
-) 
6 
a 
8 
9 
0 
和 


[nn 





图 4-51 _bulk 端 点 所 处 理 的 数据 格式 
: 每 个 索引 请 求 均 由 两 个 SON 对 象 组 成 ， 由 换行 符 分 隔 开 来 : 第 一 个 对 象 是 索引 (index) 站 操作 和 元 数据 (_index 和 _type 表 示 每 篇 文档 索引 到 何 处 ) ， 另 一 个 是 文档 的 具体 内 容 


行 只 有 一 个 JSON 文 档 。 这 意味 着 每 行 均 需 要 使 用 换行 符 〈\n， 或 者 是 ASCII 码 10) 结尾 ， 包 括 整 个 bulk 请 求 的 最 后 一 行 。 

















将 此 内 容 保存 到 名 为 “bulk.index.test.txt” 的 文件 ， 使 用 Elasticsearch 的 _bulk 端 点 读 取 该 文件 内 容 ， 具 体 如 下 。 











[huangsean@iMac2015: /Users/huangsean/Coding/elasticsearch-5.1.2]curl -s -XPOST localhost:9200/ bulk --data-binary "@bulk.index.test.txt" 
{"took":6, "errors":false,"items":[{"index":{" index":"temp index"," type":"temp type","_id":"AVnw HNUF9ONGgYB2ROC"," version":1,"result":"created"," shards":{"total":2,"success 





操作 返回 的 结果 是 一 个 JSON 对 象 ， 包 含 了 索引 花费 的 时 间 ， 以 及 针对 每 个 操作 的 回复 。 还 有 一 个 名 为 errors 的 字段 ， 表 示 是 否 有 任何 一 个 操作 失败 了 。 此 处 使 用 了 自动 的 id 生 成， 操作 index 会 被 转变 





















































为 create。 如 果 一 篇 文档 由 于 某 种 原因 无 法 索引 ， 那 么 这 并 不 意味 着 整个 bulk 批 量 操作 都 失败 了 ， 因 为 同一 个 bulk 中 的 各 项 均 是 彼此 独立 的 。 在 实际 应 用 中 ， 你 可 以 使 用 回复 的 JSON 来 确定 哪些 操作 成 功 
了 ， 哪 些 操作 失败 了 。 完 整 的 bulk.index.test.txt 文 件 位 于 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Elasticsearch/bulk.index.test.txt 








万 事 俱 备 ， 只 需要 准备 真实 的 批量 JSON 对 象 即 可 了 。 我 们 使 用 Java 代 码 ， 逐 步 读 取 MySQL 中 sys.listing_segmenteds_shuffled 表 格 中 的 记录 ， 拼 装 JSON 对 象 并 写 入 结果 文件 。 首 先 建立 Maven 的 














Java 项 目 ， 在 pom.xml 文 件 中 加 入 MySQL 的 依赖 包 : 





<!-- https://mvnrepository.coryVartifact/mysql/mysql-connector-java --> 

<dependency> 
<groupId>mysql</groupId> 
<artifactId>mysql-connector-java</artifactId> 
<version>6.0.5</version> 

</dependency> 





然后 ， 仿 照 下 面 的 代码 创建 处 理 函 数 : 


public void process (String sqlConnectionUrl1l, String outputFileName) { 


Connection conn = null; 
PrintWriter pw = null; 


try { 
// 使 用 MySQI 的 驱动 器 ， 需 要 在 pom. xml 中 指定 依赖 的 mysql 包 


com.mysql.jdbc.Driver driver = new com.mysql.jdbc.Driver(); 

// 一 个 Connection 进 行 一 个 数据 库 连 接 

conn = DriverManager.getConnection (sqlConnectionUrl 

// Statement 里 面 带 有 很 多 方法 ， 以 员 现 刁 入 、 更 新 和 删除 等 


Statement stmt = conn.createStatement (); 


// 保存 输出 的 文件 


pw = new PrintWriter (new FileWriter (outputFileName)); 


int batch = S00ns // 每 次 读 取 1000 条 记录 并 写 入 输出 文件 

int start = 

String ea eh = "ff AN po : { \" index\" ; \"listing new\", 
Ntype\™ : "listing\" 


while (true) { 


String sql = String.format ("SELECT * FROM listing segmented_ 
shuffled limit %d, %d", 
start, batch); 
ResultSet rs = stmt. a Sa 
// executeQuery 语 句 会 返回 SQL 查询 由 


int returnCnt = 0; 
while (rs.next()) { 


// 读 取 记录 并 拼装 JSON 对 象 

long listing id = rs.getLong("listing id") 7 

String listing title = rs.getString("Iisting title"); 
long category id = rs.getLong ("category id"); 

String category name = rs.getString ("category name"); 


String jsonLine2 = String.format ("{ \"id\" : \"%d\", 
\"listing title\" : \"%s\", \" te NG 
\"category name\" : \"%s\™ }" 

listing id, listing title, category id, category name); 


// 将 JSON 对 象 写 入 输出 文件 
pw.println(jsonLinel); 
Pw.Println (jsonLine2); 


FeturnCnt ++; 


} 


if (returnCnt < batch) break; // 没有 更 多 的 查询 结果 了 ， 退 出 
start += batch; // 查询 下 一 个 1000 条 记录 

} 

pw.close(); 


conn.close(); 


} catch (Exception e) { 
// TODO: handle exception 
e.PrintStackTrace (); 


(0) 
} finally { // 最 后 的 扫尾 工作 


if (pw != null) pw.close(); 
if (conn != null) 
try { 


conn.close(); 

} catch (SQLException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 


} 





你 可 以 在 这 里 找到 完整 的 预 处 理 代码 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/SearchEnginelmplementation/src/main/java/SearchEngine/SearchEnginelmplementation/Elat 




















运行 代码 后 ， 你 将 获得 用 于 导入 的 文件 listing-segmented-shuffled-for-elasticsearch.txt。 为 了 节省 时 间 ， 你 也 可 以 在 这 里 找到 该 文件 : 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Elasticsearch/listing-segmented-shuffled-for-elasticsearch.txt 








使 用 该 文件 ， 访 问 Elasticsearch 的 _bulk 端 点 : 








[huangsean@iMac2015:/Users/huangsean/Coding/elasticsearch-5.1.2]curl -s -XPOST 
localhost:9200/ bulk --data-binary "@/Users/huangsean/Coding/data/BigDataArchite 
ctureAndAlgorithm/listing-segmented-shuffled-for-elasticsearch.txt" 





访问 http://localhost: 9200/listing_new/listing/_search， 你 将 发 现 28706 件 商品 已 经 全 部 写 入 Elasticsearch 的 索引 listing_new 中 了 。 
3. 中 文 分 词 和 同义词 
Elasticsearch 默 认 的 分 析 器 对 中 文 的 处 理 同样 不 佳 。 可 尝试 一 下 http://localhost: 9200/listing_new/listing/_search?q=category name: 海水 


你 会 发 现 和 之 前 Solr 中 的 分 词 案例 相仿 ， 分 类 名 称 为 “海鲜 水 产 ” 的 商品 也 被 返回 了 。 换 言 之 ，Elasticsearch 同 样 会 将 中 文 切 成 单个 的 汉字 。 此 外 ，Elasticsearch 中 也 一 定 存在 同义词 的 问题 。 好 在 对 
于 Elasticsearch 而 言 ， 其 中 文 分 词 和 同义词 的 设置 和 Solr 类 似 。 下 面 我 们 就 来 看 一 看 详细 的 步骤 。 



































首先 来 看 看 如 何 解决 分 词 问题 ， 从 查询 阶段 入 手 会 比较 容易 。 第 一 步 也 是 最 重要 的 一 步 是 ， 下 载 Elasticsearch 的 IKAnalyzer 插 件 源码 并 进行 编译 。 原 始 的 Git 项 目 位 了 























https://github.com/medcl/elasticsearch-analysis-ik 


为 方便 起 见 ， 你 可 以 直接 下 载 基 于 上 述 内 容 构建 的 Eclipse Maven 项 目 : 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/Elasticsearch/elasticsearch-analysis-ik 





编译 成 功 后 ， 你 会 获得 target/releases/elasticsearch-analysis-ik-5.1.2.zip， 将 该 文件 解压 到 /Users/huangsean/Coding/elasticsearch-5.1.2/plugins/， 然 后 重启 Elasticsearch 服 务 ， 这 时 查询 阶段 
的 LK 分 词 器 就 准备 就 绪 了 。 不 过 ， 为 了 设置 查询 时 的 分 析 器 ， 我 们 要 稍微 调整 一 下 查询 的 方式 。 这 里 ， 使 用 Chrome 浏 览 器 中 的 Postman 插 件 ， 发 送 Elasticsearch 的 match 型 查询 。 如 图 4-52 所 示 ， 我 们 使 
HTTP POST, 访问 http://localhost: 9200/listing_new/listing/_search 端 口 ， 并 且 通 过 Body 来 设置 查询 的 参数 ， 此 时 还 未 指定 IK 分 词 器 ， 所 以 结果 仍然 是 大 量 不 相关 的 内 容 。 在 图 4-53 中 ， 我们 增加 了 
有 关 分 析 器 的 设 定 ，“ 海 水 ”不 会 再 被 切 分 为 “ 海 ” 和 “水 ”两 个 单字 。 最 终 ， 搜 索 的 结果 也 不 再会 出 现 无 关 的 内 容 。 需 要 注意 的 是 ，Solr 中 IK 可 以 不 用 设置 工作 方式 ， 而 这 里 需要 将 IK 设 置 为 智能 模式 
(ik_smart) 或 全 词 模式 (ik_max_word) 。 智 能 模式 会 根据 语义 ， 做 最 粗 粒度 的 划分 ， 比 如 会 将 “海鲜 水 产 ” 拆 分 为 “海鲜 ”和 “水 产 ”。 而 全 词 模 式 会 将 文本 做 最 细 粒 度 的 拆 分 ， 穷 尽 各 种 可 能 的 组 
合 ,比如 将 “海鲜 水 产 ” 拆 分 为 “海鲜 ” “水 产 ”“ 海 。“ 水 ”， 等 等 。 通 常 ， 智 能 模式 的 切 词 意味 着 搜索 会 拥有 较 高 的 准确 率 ， 较 低 的 召回 率 ， 而 全 词 模式 则 反之 。 

























































































虽然 “海水 ”导致 的 问题 得 到 了 解决 ， 但 是 此 时 针对 category_name 字 段 搜索 “海鲜 ” 却 不 能 返回 相关 的 结果 。 这 是 由 于 目前 索引 阶段 的 分 词 还 没有 更 正 。 由 于 修改 索引 阶段 的 分 析 器 之 后 ， 需 要 重建 
索引 ， 因 此 首先 需要 删除 原 有 的 listing_new 索 引 : 








Curl -XDELETE '‘'http://localhost:9200/listing new/' 












































此 时 ， 在 重建 索引 之 前 ， 我 们 需要 手工 设置 mapping， 而 不 能 再 使 用 系统 提供 的 默认 值 。 还 是 使 用 同样 的 Elasticsearch 的 IKAnalyzer 插 件 和 智能 模式 ， 向 http:Wlocalhost: 9200/listing_new/ 端 点 发 
送 PUT 请 求 ， 具 体内 容 如 下 : 









































"settings" : { 
"analysis" : { 
analyzer { 
nik" 
"tokenizer" : "ik smart" 
} 
} 
} 
}, 
"mappings" : { 
"listing" : { 
"dynamic" : true, 
"properties" : { 
"isting title” 于 
type" text", 
analyzer ik 


"Category name™ : 
"type™ : "text", 
"analyzer™” : "ik" 





] 
"listing id" : { 
"type" : "Longn 
’ 
"category id": { 


ntype™: "long" 
E 





POST ™ http://localhost:9200/listing_new/listing/_s( Params Save | 


Authorization Headers (1) Body @ Pre-request Script Tests Code 


生 form-data 国 xWwww-form-urlencoded Oraw 图 binary JSON (application/json) 


1r{ 
"query": { 
"match" : { 
"category_namel' : { 
"query" 。 " 海 水 " 


Cookies Headers (3) Tests Status: 200 OK Time: 27 ms 


Raw ”preview | JsoNv 三 CQ 


4 
"took": 6， 
"timed_out": false, 
"_shards": { 
"total": 5， 
"successful": 5, 
"failed": 0 
}， 
its”: 4 
"total": 3619, 
"max_score": 4.1920543, 
"hits": [ 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVnlwwjb3KxLJchJMAkG", 
"_score": 4.1920543, 
"_source": { 
"listing_id": "2702"， 
"listing_title": " 鲜 聚 汇 加 拿 大 海鲜 北极 虾 熟 虾 甜 是 1000g 装 2 
袋 装 150 个 左右 宝宝 孕妇 补 是 "， 
"category_id": "3"， 
"category_name" : "海鲜 水 产 " 


}, 
{ 


"_index": "listing_new", 
" x" PD 1 onan 














图 4-52 ”Elasticsearch match 查 询 ， 未 使 用 IK 中 文 分 词 器 














mapping 设 置 的 结果 如 图 4-54 所 示 。 














POST YY http://localhost:9200/listing_new/listing/_search Params Eg Save ™ 


Authorization Headers (1) Body® Pre-request Script Tests Code 


form-data x-www-form-urlencoded 图 raw binary JSON (application/json) Y 


"query": { 
"match" : { 


于 人 和 分 析 器 的 人 区 置 


quer 


Cookies Headers (3) Tests Status: 200 OK Time: 15 ms 


Raw Preview JSON 六 一 Q 


4 
A 


"took": 1， 

"timed_out": false, 

"_shards": { 
"obal™: 5 
"successful": 5， 
"failed": 0 

}, 

"it + 
"total": 0， 
"max_score": null, 
"hits": 口 


oo OO 上 ww 六 请 





图 4-53 ”Elasticsearch match 查 询 ， 使 用 了 IK 中 文 分 词 器 的 智能 模式 


PUT 六 http://localhost:9200/listing_new/ Params 


Authorization Headers (1) Body @ Pre-request Script Tests 


form-data Ox-www-form-urlencoded 转 raw binary JSON(applicatior/json) Y 


We { 

2r "settings" : { 
3 "analysis" : { 
4 "analyzer" 
Si "ik" 


} 


{ 


enizer”: "ik_smart" 


{ 
k 


"to 


} 
]， 
"mappings”: { 
"Listing”: { 
"dynamic”: true, 
"properties" : { 

"listing_title" : { 
"type” : "text", 
"analyzer" : "ik" 

]， 

"category_name" : { 
"type”" H " text" 
"anaLyzer”: "ik" 

}， 

"listing_id" : { 
"type”" 。 "long" 

}， 

"category_id": { 
"type”" 。 "long" 

} 


Cookies Headers (3) Tests 


Raw Preview JSON Y 一 


"acknowledged": true, 
"shards_acknowledged": true 











图 4-54 ”手工 设置 Elasticsearch 的 mapping， 加 入 IK 分 词 











从 图 4-54 返 回 的 代码 可 以 看 出 ，mapping 成 功 生效 ， 再 重新 索引 ， 代 码 如 下 : 





[huangsean@iMac2015: /Users/huangsean/Coding/elasticsearch-5.1.2]curl] -s -XPOST 
localhost:9200/_bulk --data-binary 
"@/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-for-elasticsearch.txt" 








之 后 ， 在 字段 category_name 中 查询 “海鲜 ”就 会 返回 合理 的 结果 。 











理解 了 如 何在 Elasticsearch 中 配置 |K 的 插件 之 后 ， 接 下 来 就 是 同义词 的 部 分 。Elasticsearch 的 同义词 需要 在 映射 mapping 中 进行 定义 ， 并 重建 索引 。 再 次 删除 listing_new 索 引 ， 然 后 
向 http://localhost: 9200/listing_new/ 端 点 发 送 PUT 请 求 ， 具 体内 容 如 下 : 











{ 
"settings" ; { 


"analysis" : 


{ 























"analyzer" : { 
"ik synonym" : 
"tokenizer™ : "ik smart", 
"filter" : ["synonym"] 
} 
] 
LeGkw 2 洁 
"synonym" : { 
"type" : "synonym", 
"synonyms_path" :; "synonyms.txt" 
} 
} 
} 
}, 
"mappings" : { 
vietinoge s 4 
"dynamic" : true, 
"properties" ; { 
“listing titlen.s 
"type "text", 
"analyzer" : "ik_ synonym" 
] 
"category name™" : { 
"type™ : "text", 
"analyzer" : "ik synonym" 
i 
"listing id" : 
"type" "long™ 
] 
"category id": { 
"type™: "long" 
} 
} 
} 
} 

















4-55 展 示 了 增加 同义词 


hs 


器 之 后 ， 映 射 mapping 设 置 的 结果 。 


PUTY: http://localhost:9200/listing_new/ Params 


Authorization Headers (1) Body @ Pre-request Script 


Am 


思 form-data ”局 x-www-form-urlencoded 图 raw ® binary 


"settings" : { 
"analysis" : { 
"analyzer" : { 
"ik_synonym" : { 
"tokenizer”: "ik_smart", 
"filter"” : ["synonym"] 
} 
}, 
Elton 
"synonym" : { 
"type” : "synonym", 
"synonyms_path" : "synonyms.txt" 


} 
}, 
"mappings" : { 
"Listing”: { 
"dynamic" : true, 
"properties" : { 
"listing_title" : { 
"type”" : "text", 
"anaLyzer”: "ik_synonym" 
}, 
"category_name" : { 
"type” : "text", 
"anaLyzer”: "ik_synonym" 
}, 
"listing_id" : { 
"type” : "long" 
}, 
"category_id": { 


Cookies Headers (3) Tests 


一 


Raw Preview JSON 广 


"acknowledged": true, 
"shards_acknowledged": true 


图 4-55 手工 设置 mapping， 加 入 同义词 过 滤器 








Tests 


JSON (applicatior/json) 


这 里 的 synonyms.txt 是 位 于 /Usershuangsean/Codingy/elasticsearch-5.1.2/config/ 的 同义词 文件 ， 你 可 以 手动 生成 该 文件 并 在 其 中 加 入 类 似 Solr 的 同义词 词 条 ， 例 如 “西红柿 => 番 茄 ”。 重 启 








Elasticsearch 并 重建 索引 之 后 ， 再 次 实验 listing _title 字 段 上 的 关键 词 查询 ， 你 将 发 现 搜索 “西红柿 ”和 “ 赫 茄 ”的 结果 变 得 一 致 了 。 


4 基于 Aggregation 的 类 目 或 属性 导航 














与 Solr 的 切面 (Facet) 类 似 ，Elasticsearch 使 











聚集 (aggregation) 来 实现 某 个 字段 值 的 分 组 ， 它 同样 可 以 用 于 搜索 结果 的 类 目 、 

















属性 筛选 或 导航 。 不 过 ，Elasticsearch 的 聚集 类 型 繁多 ， 更 为 强 


大 ， 可 以 支持 多 纬度 、 相 互 谋 套 的 聚集 ， 以 及 聚集 结果 上 的 基本 数据 统计 。 其 中 ， 最 基本 的 是 词 条 聚集 (Terms Aggregation) ， 它 是 桶 型 聚集 (Bucket Aggregation) 的 一 种 ， 语 法 示例 如 下 : 





"aggs™" : { 
"categories" : { 
erms" : { "field" : "category name" } 
} 
} 











其 中 ，aggs 是 聚集 的 缩写 ，categories 是 聚集 的 名 称 ，terms 则 指定 聚集 为 词 条 型 ， 根 据 字段 上 的 词 条 进行 聚集 ，field 指 定 了 被 聚集 的 字段 category_name。 但 是 ， 执 行 之 后 我 们 很 快 就 会 看 到 如 图 4- 
56 所 示 的 错误 信息 ， 表 示 text 类 型 的 字段 在 默认 情况 下 是 没有 打开 字段 数据 (Fielddata) 的 。 原 来 ， 对 于 和 查询 相 匹 配 的 每 篇 文档 ， 聚 集 操作 都 必须 处 理 其 中 的 词 条 ， 这 就 需要 从 文档 ID 到 词 条 的 映射 关 
系 。 因 此 ，Elasticsearch 需 要 将 倒 排 索引 再 次 反 转 ， 以 获得 被 称 为 字段 数据 的 结构 。 字 段 数据 要 处 理 的 词 条 越 多 ， 它 所 使 用 的 内 存 也 就 越 多 。 你 要 确保 Elasticsearch 能 够 提供 足够 大 的 堆 空间 ， 尤 其 是 当 你 
在 大 量 文档 上 进行 聚集 的 时 候 ， 这 可 以 认为 是 聚集 强大 功能 的 一 种 代价 。 


POST ~ http://localhost:9200/listing_new/listing/ s(t Params Save ™ 


Authorization Headers (1) Body @ Pre-request Script Tests Code 









































9 form-data x-www-form-urlencoded @raw binary JSON(application/json) 


"query" 。 
”match”: { 
"listing_title" : { 
"query”: "西红柿 " 


} 
0ggs" : 有 


"categories" : { 
"terms" : { "field" : "category_name" } 
} 


} 


} 


Cookies Headers (3) Tests Status: 400 Bad Request Time: 23 ms 


Raw Preview JSON Y 祥 一 CQ 


"error": { 
"root_cause": [ 
{ 
"type": "illegal_argument_exception", 
"reason": "Fielddata is disabled on text fields by default. Set fielddata 
=true on [category_name] in order to load fielddata in memory by 


"type": "search_phase_execution_exception", 
"reason": "all shards failed", 


Phase "query”, 错误 信息 提示 : 需要 将 


"failed_shards": [ 被 聚 集 的 字 段 指 定 为 
"shard": 0， 字段 数据 (Fielddata ) 


"index": "listing_new", 
"node": "hqTOb5GIRymJDr-dk3GELg", 
"reason": { 

"type": "illegal_argument_exception", 











图 4-56 被 聚集 字段 category_name 不 是 字段 数据 ， 无 法 聚集 


























因此 ， 为 了 实现 聚集 ， 我 们 需 


为 等 待 聚集 的 字段 打开 字段 数据 。 


次 删除 索引 ， 创 建新 的 映射 mapping， 





其 中 加 粗 、 和 斜体 的 设置 是 为 字段 数据 而 新 增 的 部 分 : 





"settings" : { 
"analysis" : { 
"analyzer" : { 


"ik synonym" : 
"tokenizer™ : 
["synonym"] 


"filter™" : 


"properties" : 


{ 


"ik smart", 


" : "synonym", 
"SYynonyms_Path" : 


"synonyms .txt" 


: true, 


世上 9 村 生计 


"type" : 
"analyzer" : 


. 


"text", 
"ik_synonym" 


"category name™" :; { 


"type™ : 
"analyzer" 
"fielddata" : 


’ 
"isting td" < 
"type" : 


"text", 
: "ik_synonym", 
trus. 


{ 
"long" 


’ 
"category id": { 

"type™: "long" 
} 

















映射 创建 完毕 





于 ， 可 依照 之 前 的 步骤 重建 索引 。 





后 ， 如 








取 


4-57 所 示 ， 在 查询 上 进行 聚集 














“小 明 哥 ， 目 前 来 看 ，Solr 和 Elasticsearch 的 使 








比较 相似 啊 。” 











“ 没 错 ， 两 者 都 是 基于 Lucene 的 强大 扩展 延伸， 从 功能 上 来 看 





也 比较 相似 。 不 过 ， 对 了 























于 较为 资深 的 程序 设计 者 而 言 ，Elasticsearch 的 功能 则 更 为 强大 ， 使 


操作 ， 你 将 得 到 类 似 Solr 切 机 





的 效果 。 

















初学 者 而 言 ，Solr 的 schema 管 理 要 比 Elasticsearch 的 映射 更 简单 易 懂 ， 可 视 化 的 管理 界 








HI 





也 更 为 友好 。 而 对 





起 来 也 更 为 灵活 一 些 。 下 面 ， 我 们 就 来 看 看 Elasticsearch 集 群 的 搭建 和 Solr 有 何不 同 。” 


POST YY http://localhost:9200/listing_new/listing/_search Params Save | a 


Authorization Headers (1) Body @ Pre-request Script Tests Code 


form-data x-www-form-urlencoded @@raw binary JSON(application/json) Y 


"query": { 
”match”: { 
"listing_title" : { 
"query" 。 "西红柿 " 


} 
aggs" : { 


"categories" : { 
"terms" : { "field" : "category_name" } 
} 


} 


} 
| 


Cookies Headers (3) Tests 


Raw Preview JSON Yv 一 


"categories": { 
"doc_count_error_upper_bound": 
"sum_other_doc_count": 0， 
"buckets": [ 

{ 
"key": "方便 面 "， 
"doc_count": 16 


}, 
{ 


"key": "饼干 "， 
"doc_count": 14 
}， 
{ 
"key": "新 鲜 "， 
"doc_count": 9 
}, 
{ 
"key": "水 果 "， 
"doc_count": 9 
}， 
{ 
"key": "坚果 "， 
"doc_count": 1 





图 4-57 Elasticseatch 的 聚集 和 Solr 的 切面 效果 相似 


5.Elasticsearch 的 集群 搭建 


Elasticsearch 集 群 的 建立 也 是 非常 直观 的 ， 首 先 从 第 1 个 节点 开始 。 为 了 观察 集群 的 状态 ， 首 先 通过 HTTP DELETE 删 除 之 前 所 有 的 测试 索引 ， 并 停止 Elasticsearch 服 务 。 然 后 在 iMac2015 这 人 台 机 器 上 ， 
修改 Elasticsearch 启 动 的 配置 文件 





/Users/huangsean/Coding/elasticsearch-5.1.2/config/elasticsearch.yml 





在 其 中 加 入 集群 的 名 称 和 节点 名 称 : 





# 
# 设置 集群 名 称 : 


# 


cluster.name: "ECormerce" 


# 
; 设置 节点 名 称 : 


node.name: "iMac2015" 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/ 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 
# 设置 网 络 IP 

# 

network.host: 192.168.1.48 

network.bind host: 192.168.1.48 

network.publish host: 192.168.1.48 

# 

# Set a custom port for HTTP: 

# 

#http.port: 9200 

# 





# For more information, consult the network module documentation. 
nn MSNerYy moreno 


# Pass an initial list of hosts to perform discovery when new node is started: 
#The default list of hosts is ["127.0.0.1", "[::1]"] 
# 


# Prevent the "split brain" by configuring the majority of nodes (total number of master-eligible nodes / 2 + 1): 
# 防止 脑 裂 的 设置 

# 

discovery.zen.minimum master nodes: 2 

discovery.zen.ping timeout: 120s 

http://waw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/ 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 








完整 的 配置 样 例 可 参见 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Elasticsearch/elasticsearch.yml 








保持 配置 文件 ， 重 新 启动 Elasticsearch， 访问 http://localhost: 9200/_cluster/health， 你 将 发 现 类 似 于 图 4-58 所 示 的 结果 ， 从 中 可 以 看 出 集群 的 名 被 称 修改 为 “ECom-merce”， 而 状态 
为 “green” (绿色 ) ， 表 示 正 常 。 由 于 尚未 建立 任何 索引 ， 所 以 分 片 的 数量 都 为 0。 





CE | © localhost:9200/_cluster/health 


| // 20170131205900 
// http://Tlocalhost:9200/_cluster/health 


"cluster_name": "ECommerce", 

"status": "green", 

"timed_out": false, 

"number_of_nodes": 1, 
"number_of_data_nodes": 1, 
"active_primary_shards": 0， 
"active_shards": 0， 
"relocating_shards": 0, 
"initializing_shards": 0， 
"unassigned_shards": 0, 
"delayed_unassigned_shards": 0， 
"number_of_pending_tasks": 0, 
"number_of_in_flight_fetch": 0， 
"task_max_waiting_in_queue_millis": 0, 
"active_shards_percent_as_number”": 100.0 








4-58 Elasticsearch 集 群 的 初始 状态 


























最 新 的 5.x 版 本 中 ，Elasticsearch 不 允许 在 elastics-earch.yml 中 修改 索引 级 别 的 设置 ， 包 括 分 片 和 副本 的 数量 。 如 果 要 修改 默认 值 ， 那 么 需要 在 建立 新 索引 时 进行 修改 。 可 使 用 手动 的 方式 建立 映射 
mapping， 注 意 加 入 下 面 粗 体 、 斜 体 的 部 分 ， 它 们 表示 副本 的 数量 为 1， 分 片 的 数量 为 3: 











etting: 站 

"index.numbe £f_repl 了 
"index.numbe Shard: 本 

alysis™ : { 

"analyzer" : { 

"ik_synonym' 长 
"tok "ik smart 
"filt ["synonym"] 


] 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
bs 














请 注意 ，Elasticsearch 副 本 设置 的 含义 和 Solr 有 所 不 同 ， 它 并 不 包含 主 分 片 。 所 以 这 里 将 副本 设置 为 1， 再 加 上 主 分 片 共有 两 个 副本 可 以 用 于 服务 请 求 。 如 果 将 副本 设置 为 n， 那 么 一 共有 n+1 个 副本 可 
。 发 送 HTTP PUT 请 求 之 后 ， 结 果 就 如 图 4-59 所 示 ，Elasticsearch 提 示 操 作成 功 。 









































PU 


Headers (1) Body @ 


Authorization 





篇 form-data 。 先 x-www-form-urlencoded 


{ 


"settings” : 


http://localhost:9200/listing_new/ 


JSON (application/json) 


Pre-request Script 


图 raw binary 


"analysis" : { 
"analyzer" : { 
"ik_synonym" : { 
"tokenizer” : 


"ik_smart", 


"fiLter”: ["synonym"] 


: "synonym", 


"synonyms_path" 


了 
}, 
"mappings” : { 
"listing" : { 
"dynamic" : true, 
"properties" : { 


"listing_title" 
"text", 


"type™" : 


"analyzer" : 


}, 
"category_name 
"type”" 
"analyzer" : 


: "synonyms .txt" 


:+ 
"ik_synonym" 
:{ 


: "text", 
"ik_synonym" 8 


"fielddata" : true 


}， 
"listing_id" : { 
"type™” : 
}, 


"category_id": { 


Cookies Headers (3) Tests 


Preview JSON 广 


"acknowledged": true, 
"shards_acknowledged": true 


图 4- 


此 时 访问 http://localhost: 9200/_cluster/health， 你 将 发 现 一 些 变化 ， 如 


是 “yellow” (黄色 ) 。 


"long" 


Status: 200 OK Time: 410 ms 


口 Q 


到 





59 ”建立 新 的 索引 映射 ， 指 定 分 片 和 副本 的 数量 


图 4-60 所 示 。 有 目前 为 新 的 索引 设 定 了 3 份 分 片 ， 但 是 尚 无 索引 数据 ， 因 此 没有 分 配 任何 分 片 ， 集 群 的 状态 也 





个 


GC 四 localhost:92001/_cluster/health 


_A/ 20170131222924 
// http://NMlocalhost:9200/_cluster/health 


v1 
ELuster_name : “ECommerce”, 
"status”: “YeLLow ， 
"timed_out": false, 
"number_of_nodes": 1, 
"number_of_data_nodes": 1, 
"active_primary_shards": 3, 
"active_shards": 3, 
"relocating_shards": 60, 
"initializing_shards": @, 
"unassigned_shards": 3， 
"delayed_unassigned_shards": 0， 
"number_of_pending_tasks": 0@, 
"number_of_in_flight_fetch": 0， 
"task_max_waiting_in_queue_millis": 0， 
"active_shards_percent_as_number”: 50.0 





图 4-60 ”Elasticsearch 集 群 的 状态 发 生 了 变化 ， 主 分 片 数 变 为 3 





接 下 来 ， 启 动 另外 两 个 节点 MacBookPro2013 和 MacBookPro2012，elasticsearch.yml 的 内 容 基本 和 iMac2015 节 点 上 的 类 似 ， 只 是 需要 修改 相应 的 节点 名 称 和 IP 地 址 : 





et 3 
h 设置 集群 名 称 : 

Ct : "ECormm le 

t Tn 机 
# 


# 设置 节点 名 称 : 
# 


node.name: "MacBookPro2013" 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 


名 
bg 
i 

XS 
全 
[ey 


network.host: 192.168.1.28 
network.bind host: 192.168.1.28 
network.publish host: 192.168.1.28 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncomp: 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 


ressed/16351/0EBPS/Text/... 


# 
# 设置 节点 名 称 : 
# 


node.name: "MacBookPro2012" 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
# 设置 网 络 IP 加 

# 


network.host: 192.168.1.78 

network.bind host: 192.168.1.78 

network.publish host: 192.168.1.78 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/,.. 





成 功 启动 男 外 两 个 节点 之 后 ,访问 http://localhost: 9200/_clusteVhealth， 你 将 看 到 类 似 图 4-61 的 结果 ， 表 明 3 个 节点 都 已 经 准备 就 绪 。 这 时 你 可 能 会 奇怪 ， 我 们 并 没有 像 Solr 等 项 目 那样 配置 
ZooKeeper， 那 么 Elasticsearch 的 各 个 节点 是 如 何 自动 连接 上 的 呢 ? 实际 上 ，Elasticsearch 节 点 使 用 了 两 种 不 同 的 方式 来 发 现 另外 一 个 节点 : 广播 或 单 播 。Elasticsearch 可 以 同时 使 用 两 者 ， 不 过 默认 的 配 
是 仅 使 用 广播 。 当 Elasticsearch 启 动 的 时 候 ， 它 发 送 了 广播 的 ping 请 求 ， 而 其 他 的 Elasticsearch 节 点 如 果 使 用 了 同样 的 集群 名 称 ， 就 会 响应 这 个 请 求 。 因 此 ， 这 里 需要 特别 注意 ， 要 确保 修改 
elasticsearch.yml 配 置 文件 中 的 cluster.name 设 置 ， 将 默认 的 elasticsearch 修 改 为 一 个 更 为 具体 的 名 称 ， 以 免 和 他 人 的 集群 节点 相互 混淆 。 如 果 你 想 要 使 用 更 为 定向 的 单 播 模式 ， 可 以 在 elasticsearch.yml 
文件 中 进行 类 似 如 下 的 设置 : 
































































































































discovery.zen.ping.unicast.hosts: ["192.168.1.48","192.168.1.28","192.168.1.78"] 

















另外 ，elasticsearch.yml 中 需要 注意 的 设置 是 有 关 主 节点 (master node) 的 设置 。 由 于 Elasticsearch 没 有 使 用 ZooKeeper 的 管理 ， 它 将 自己 选举 主 节点 以 用 于 协调 集群 和 数据 同步 ， 因 此 主 节 点 和 
ZooKeeper 里 的 领导 (leader) 节点 类 似 。 当 主 节点 宕 机 之 后 ， 集 群 中 剩 下 的 节点 就 会 选举 出 新 的 主 节 点 。 不 过 ， 当 原先 的 主 节点 再 次 恢复 时 ， 可 能 会 形成 另 一 个 与 原 集群 拥有 相同 名 字 的 集群 ， 这 种 情况 
称 为 集群 的 脑 裂 现象 〔split-brain) 。 脑 裂 将 导致 集群 状态 和 数据 的 不 一 致 ， 影 响 搜 索 的 服务 。 因 此 需要 避免 脑 裂 的 发 生 。 最 简单 的 做 法 是 只 允许 1 台 机 器 作为 主 节点 ， 而 其 他 节点 的 elasticsearch.yml 中 都 
进行 node.master: false 的 设置 。 不 过 这 样 就 会 产生 单 点 故障 ， 失 去 了 集群 自我 修复 的 能 力 。 所 以 强烈 建议 进行 如 下 设置 : 













































































discovery.zen.minimum master nodes: 2 



































该 设置 表示 要 选举 出 新 的 主 节 点 ， 必 须要 至 少 2 个 节点 参与 。 根 据 经 验 这 个 值 一 般 设置 成 NM2+1，N 是 集群 中 节点 的 数量 ， 例 如 对 于 这 里 拥有 3 个 节点 的 集群 ，minimum_master_nodes 应 该 被 设置 成 
3/2+1=2 (向 下 取 整 ) 。 如 果 设 置 少 于 集群 节点 总 数 的 大 半 ， 将 可 能 产生 脑 裂 现 象 ， 如果 设置 多 于 节点 的 总 数 ， 当 然 就 会 不 可 能 形成 集群 。 











// http://localhost:9200/_cluster/health 


"cluster_name": "ECommerce", 
"status”: "yellow", 
“timed_out"”: false, 
"number_of_nodes": 3, 
"number_of_data_nodes": 3， 
"active_primary_shards": 3, 
"active_shards": 3, 
"relocating_shards”": 0， 
"initializing_shards": 0, 
"unassigned_shards": 3， 
"delayed_unassigned_shards": 0， 
"number_of_pendtng_tasks : 0, 
number_of_tLn_fLtght_fetch : 0， 


"task_max_waiting_in_queue_millis": 0， 
"active_shards_percent_as_number": 50.0 


图 4-61 Elasticsearch 集 群 状态 显示 ， 可 用 节点 数 变 为 3 


不 过 如 果 细 心 观察 ， 你 将 会 发 现 即 使 用 有 了 3 个 节点 ， 集 群 的 状态 还 是 黄色 的 。 查 看 日 志 ， 可 发 现 类 似 如 下 的 警告 : 








[2017-02-01T20:01:23,137] [WARN ] [o.e.c.r.a.DiskThresholdMonitor] [iMac2015] high disk watermark [90%] exceeded on [fhKFEGr RVyWP5daMEpVxg 

















[MacBookPro2012] [/Users/huangsean/Codi 


原来 Elasticsearch 处 于 磁盘 管理 的 考虑 ， 默 认 设置 了 watermark，watermark.low 默 认 值 为 85%， 表 示 如 果 某 节点 的 磁盘 使 用 空间 达到 了 85%， 那 么 不 再 将 其 他 分 片 分 配 到 这 个 节点 上 ,而 
watermark.high 默 认 值 为 90%， 表 示 如 果 某 节点 的 磁盘 使 用 空间 达到 了 90%， 那 么 将 会 尝试 将 该 节点 上 的 分 片 移 到 其 他 节点 。 这 原本 是 很 好 的 预防 机 制 ， 但 在 某 些 场合 下 过 于 严 苛 ， 例 如 整体 磁盘 空间 非常 
大 ， 而 Elasticsearch 索 引 数 据 相对 较 小 ， 完 全 用 不 到 10% ~ 15% 的 预 留 。 就 像 这 里 的 测试 机 ， 它 虽然 只 剩 3.9% 的 空余 磁盘 ， 但 实际 上 也 达到 了 17GB。 为 此 ， 你 需要 手动 修改 配置 ， 将 watermark.low 和 



























































watermark.high 的 要 求 分 别 降低 到 10GB 和 5GB， 如 图 4-62 所 示 。 


完毕 之 后 ， 很 快 就 会 看 到 类 似 如 下 的 日 志 ， 显 示 集群 状态 变 绿 : 








[2017-02-01T20:03:54,166] [INFO ][o.e.c.r.a.AllocationService] [iMac2015] Cluster health status changed from [YELLOW] to [GREEN] (reason: [shards started [[listing new] [2]] httF 

















最 后 ,执行 批量 建立 索引 的 命令 ,一 个 3 节点 的 Elasticsearch 集 群 就 搭建 完成 了 : 


[huangsean@iMac2015:/Users/huangsean/Coding/elasticsearch-5.1.2]curl -s -XPOST 
localhost:9200/_bulk --data-binary "@/Users/huangsean/Coding/data/ 
BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-for-elasticsearch.txt" 


如 图 4-63 查 看 集群 状态 ， 你 将 发 现 集群 状态 变 绿 ， 激 活 总 分 片 数 (active_shards) 变 为 6 个 (3 份 主 分 片 、3 份 备份 分 片 ) ， 也 不 存在 未 分 配 的 分 片 (unassigned_shards) ， 整 体 恢复 正常 。 





4.6.4 统一 的 搜索 APl 





"感谢 小 明 哥 ， 现 在 我 对 Solr 和 Elasticsearch 有 了 比较 基础 的 了 解 。 不 过 在 实际 应 




















中 应 该 如 何 选择 呢 ? 在 实践 中 ， 不 同 的 搜索 引擎 实现 ， 会 对 前 端的 调 














产生 不 同 的 影响 ， 我 们 需要 尽快 确定 一 种 选 








PUTDIY http://localhost:9200/_cluster/settings | Params 





Authorization Headers (1) Body® 


form-data  ® x-www-form-urlencoded 


2r "persistent": { 


Pre-request Script Tests 


EE 


Code 


@raw binary JsON (application/ison) v 


"cluster.routing.allocation.disk.watermark.low": "10gb", 
"cluster.routing.allocation.disk.watermark.high": "5gb", 
"cluster.info.update.interval": "1im" 





Body Cookies Headers (3) Tests 





Raw Preview JSON YY 


二 





"acknowledged": true, 
"persistent": £ 
"cluster": { 
"routing": { 
"allocation": { 
"disk": { 
"watermark": { 
"Low" . "10gb" 3 
"high": "5gb" 
了 
} 
} 
]， 
"info": £ 
"update": { 
"interval": "1m" 


"transient": 他 


23 日 

















4-62 ”修改 集群 对 磁盘 的 管理 


// http://localhost:9200/_cluster/health 


"cluster_name”: "ECommerce", 

"status": "green", 

"timed_out": false, 

"number_of_nodes": 3, 
"number_of_data_nodes": 3， 
"active_primary_shards": 3, 
"active_shards": 6, 
"relocating_shards": 0， 
"initializing_shards": 0， 
"unassigned_shards": 0, 
"delayed_unassigned_shards": 0， 
"number_of_pending_tasks": 0， 
"number_of_in_flight_fetch": 0 
"task_max_waiting_in_queue_millis": 0, 
"active_shards_percent_as_number": 100.0 





图 4-63 ”Elasticsearch 集 群 状态 恢复 正常 ， 共 6 个 分 片 











“很 好 的 问题 ， 不 过 你 再 深入 想 一 想 ， 直 接 让 前 端的 应 用 调用 Solr 或 Elasticsearch 的 RESTFUL APl 是 最 佳 的 选择 吗 ? 如 果 是 在 初期 为 了 进行 快速 的 原型 ， 这 样 做 可 以 节约 开发 成 本 。 但 是 随 着 项 目的 
































成 熟 ， 业 务 的 发 展 ， 直 接 调 用 API 会 有 如 下 几 个 风险 。 


“ 重 构 : 正如 你 所 说 的 ， 如 果 更 换 了 搜索 引擎 的 实现 ， 前 端 需要 重新 改写 调用 的 代码 。 如 果 业 务 逻 辑 已 经 非常 复杂 ， 修 改 的 工作 量 可 想 而 知 ， 而 且 重 构 后 的 准确 性 和 完整 性 也 很 难 验证 。 而 且 在 现实 





中 ， 开 源 项 目 更 新 换代 非常 快 ， 切 换 搜索 引擎 的 实现 也 是 很 有 可 能 会 发 生 的 。 
“ 质量: 在 本 章 我 们 已 经 初步 涉及 了 和 搜索 质量 相关 的 问题 ， 例 如 中 文 分 词 和 同义词 。 在 后 续 几 章 我 们 将 看 到 更 多 关于 此 的 探讨 和 实现 。 这 些 罗 辑 如 果 全 部 在 前 端 调 用 时 就 来 实现 ， 那 么 沟通 的 工作 量 
会 过 大 ， 也 容易 出 错 。 


“ 安全 性 : 在 前 端 直接 调用 就 意味 着 更 多 的 人 可 以 直接 访问 搜索 的 集群 ， 甚 至 是 对 索引 数据 进行 删除 操作 。 由 于 缺乏 权限 的 管理 ， 无 意 和 有 意 的 破坏 操作 都 将 导致 严重 的 线 上 事故 。” 


“ 哦 ， 确 实 如 此 啊 ， 这 些 问题 我 还 真 没 有 想到 。 那 么 该 如 何 应 对 这 些 挑战 呢 ?“ 








“不 用 担心 ， 其 实 我 们 可 以 通过 良好 的 模块 化 设计 ， 以 及 设计 模式 来 解决 它们 。” 

















1. 模 块 化 和 设计 模式 





























模块 化 在 软件 和 IT 行业 是 相当 成 熟 的 概念 。 它 可 以 定义 为 各 个 框架 之 间 的 输入 、 输 出 关系 ， 降 低 系统 的 复杂 度 ， 使 大 型 系统 的 设计 、 调 试 和 维护 更 加 简洁 。 对 于 这 里 的 案例 ， 假 设 由 于 开发 的 历史 的 原 
因 ， 我 们 有 若干 个 搜索 引 警 的 实现 ， 包 括 了 不 同 版 本 的 Solr 和 Elasticsearch。 那 么 我 们 可 以 依照 图 4-64 的 原理 ， 设 计 一 层 搜索 专用 的 APl。 












































Solr 4.x 


Solr 6.x 


Solr Cloud 
! Solr 节点 1 


Solr 节点 n 


查询 请 求 


数据 更 新 


搜 
索 


ZooKeeper 本 API 


IKAnalyzer 查询 结果 


中 文 分 词 





Elasticsearch $.x 





图 4-64 ”Elasticsearch 的 聚集 和 Solt 的 切面 效果 相似 























在 图 4-64 中 ， 搜 索 API 层 将 抽象 出 最 为 常用 的 搜索 引擎 接口 ， 保 持 其 较为 长 期 的 稳定 性 ， 这 样 前 端 应 用 在 调用 搜索 功能 的 时 候 ，API 层 发 生变 化 的 可 能 性 会 大 幅度 降低 。 而 API 层 将 为 前 端的 使 用 者 完成 
请 求 的 转化 和 匹配 ， 让 不 同类 型 的 搜索 引擎 都 可 以 完成 同样 的 原始 请 求 ， 我 们 可 以 将 这 个 步骤 比喻 为 一 种 “翻译 。， 它 对 前 端 应 用 是 不 可 见 的 ， 这 在 很 大 程度 上 降低 了 使 用 者 的 负担 ， 也 会 减少 重 构 时 的 开 
发 成 本 。 而 同时 ，API 层 也 可 以 封装 很 多 处 理 逻 辑 ， 优 化 搜索 的 相关 性 ， 提 升 系统 的 性 能 ,这 对 于 使 用 方 应 该 是 不 可 见 的 ， 他 们 没有 必要 担心 如 何 改善 搜索 的 质量 。 而 出 于 安全 性 的 考虑 ，API 层 也 能 通过 抽 
象 的 接口 进行 合理 的 管控 ， 屏 蔽 危险 的 操作 。 最 终 ， 搜 索 API 层 也 让 异 构 搜索 引擎 共存 成 为 可 能 ， 例 如 图 4-64 中 同时 存在 4.x 版 和 6.x 版 本 的 Solr， 以 及 另 一 个 5.x 版 本 的 Elasticsearch。 如 果 有 足够 的 资源 ， 开 
发 团队 可 以 同时 部 署 不 同 的 实现 ， 在 线 测试 不 同 服务 的 性 能 差异 ， 甚 至 是 用 作 系统 灾 备 。 















































































































































有 了 模块 化 的 概念 ， 我 们 就 可 以 考虑 如 下 两 个 主要 的 问题 了 。 
* 抽象 的 接口 有 哪些 。 综 合生 产 环境 中 常见 的 应 用 场景 ， 搜 索 API 的 接口 主要 包括 索引 (index) 、 查 询 (guery) 和 聚集 (Elasticsearch 的 aggregate、Solr 的 facet 等 ) 。 


“ 如 何 使 用 设计 模式 (Design Pattern) 来 “翻译 ”部 分 的 设计 。 这 里 我 们 将 采用 适配器 模式 (Adapter) ， 将 Solr、Elasticseatch 等 不 同 搜索 引擎 的 接口 转换 成 搜索 API 层 的 接口 ， 也 就 是 应 用 端 所 希望 调用 


的 接口 。 

















在 下 面 的 几 个 小 节 中 ， 我 们 将 以 索引 和 查询 接口 为 例 ， 展 示 如 何 使 用 java 语言 ， 为 Solr 和 Elasticsearch 编 写 适 配 代码 。 在 此 之 前 ， 我 们 先 定义 两 个 java 接口 如 下 : 























// 这 里 只 实现 了 索引 和 查询 接口 ， 感 兴趣 的 读者 可 以 自行 尝试 聚集 等 其 他 操作 的 接口 
public String index (List<ListingDocument> documents, Map<String, Object> 


indexParams); 
public String query (Map<String, Object> queryParams); 


// public String aggregate (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/...); 





2. 使 用 SolrJ 的 实现 


























Apache 为 大 家 提供 了 一 个 很 有 价值 的 工具 一 一 SolJ， 它 让 我 们 可 以 通过 Java 来 连接 Solr， 并 执行 索引 更 新 和 查询 。 你 只 需要 导入 相关 的 Jar 包 ， 使 用 其 简单 的 API 就 可 以 轻松 地 对 Solr 进 行 操作 了 。 为 了 
使 用 SolJ， 需 要 在 pom.xml 里 添加 Solr 相 关 的 依赖 包 : 























<!-- https://mvnrepository.com/artifact/org.apache.solr/solr-solrj --> 
<dependency> 
<groupId>org.apache.solr</groupId> 
<artifactId>solr-solrj</artifactId> 
<version>6.3.0</version> 
</dependency> 


之 后 ， 我 们 编写 了 一 个 名 为 SolrSearchEngineBasic 的 类 ， 实 现 了 index 和 query 接 口 。 该 类 主要 包含 如 下 几 个 函数 。 


这 是 基于 Solr 之 搜索 引擎 的 构造 函数 ， 在 其 中 我 们 将 初始 化 CloudSolrClient， 它 可 以 连接 Solr Cloud 的 集群 : 





* public SolrSearchEngineBasic (Map<String, Object>serverParams) 


Public SolrSearchEngineBasic (Map<String, Object> serverParams) { 
try { 
// 读 取 ZooKeeper 的 配置 
String zkHost = serverParams.get ("zkHost") .上 toString () 7 


// 读 取 Solr Collection 文 档 的 配置 
String collection = serverParams.get ("collection") .toString () 7 


// 根据 上 述 配 置 ， 初 始 化 CloudSolrClient 


solrClient = new CloudSolrClient.Builder() .withZkHost (zkHost) .build(); 
solrClient .setDefaultCollection (collection); 


} catch (Exception e) { 
// TODO: handle exception 
e.printstackTrace (); 





“ public void cleanup () 一 一 关闭 Solt 的 连接 ， 回 收 资 





。 这 点 对 于 长 期 的 线 上 服务 非常 关键 : 





public void cleanup() { 


// 关闭 CloudSolrcClient 的 连接 
if (solrClient != null) { 
try { 
solrClient .close(); 
solrClient = null; 
} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 
} finally { 
solrClient = null; 
} 





:public String index (List<ListingDocument>documents，Map<String，Object>indexParams) 一 一 实现 之 前 定义 的 索引 接口 ， 其 中 通用 的 ListingDocument 将 被 转换 为 Solt 能 够 识别 的 SolrInputDocument: 





public String index (List<ListingDocument> documents, Map<String, Object> indexParams) { 
UpdateResponse response = null; 
try { 


// 适 配 部 分 : 根据 输入 的 统一 文档 ListingDocument， 生 成 并 添加 Solr 
// 所 使 用 的 SolrInputDocument 
for (ListingDocument 1d : documents) { 


SolrIinputDocument sid = new SolrIinputDocument (); 
sid.adgdField("listing id", ld.getListing id()); 
sid.addField("listing title", ld.getListing title()); 
sid.addField ("category id", ld.getCategory id()); 
sid.addField("category name", ld.getCategory name()); 


solrClient .add (sid); 
} 


// 写 入 Solr Cloud 的 索引 
response = solrClient.commit (); 


} catch (Exception e) { 
// TODO: handle exception 
e.printstackTrace (); 

} 


return response.toString(); 





public String query (Map<String，Object>queryPartams) 一 一 实现 之 前 定义 的 查询 接口 ， 用 户 的 搜索 请 求 将 被 转换 为 SolrQuery: 





public String query (Map<String, Object> queryParams) { 
// TODO Auto-generated method stub 


QueryResponse response = null; 
try { 


// 适 配 部 分 : 根据 输入 的 搜索 请 求 ， 生 成 Solz 所 能 识别 的 查询 
String query = queryParams .get ("query") .上 toString () 7 
String[] terms = query.split("\\s+"); 
StringBuffer sbQuery = new StringBuffer () 7 
for (String term : terms) { 
if (sbQuery.length() == 0) { 
sbQuery .append (term); 
} else { 
// 为 了 确保 相关 性 ， 使 用 了 AND 的 布尔 操作 
sbQuery.append (" AND ") .append (term); 
} 
} 
String[] fields = (String []) queryParams.get ("fields"); 
StringBuffer sbQf = new StringBuffer(); 
for (String field : fields) { 


if (sbQf.length() == 0) { 
sbQf .append (field); 
} -8lse: { 
// 在 多 个 字段 上 查询 
sbQf .append (" ") .append (field); 


} 


// 为 支持 翻 页 (pagination) 操作 的 起 始 位 置 和 返回 结果 数 
int start = (int) (queryParams .get ("start")); 
int rows = (int) (queryParams .get ("rows")); 


// 构建 Solr 使 用 的 查询 

SolrQuery sq = new SolrQuery(); 
sq.setParam("defType", "edismax"); 
sq.set ("gq", sbQuery.toString()); 
sq.set ("gqf", sbQf.tostring()); 
sq.set ("start", start); 

sq.set ("rows", rows); 


// 获取 查询 结果 

response = solrClient.query (sq); 

SolrDocumentList list = response.getResults(); 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/.. .这 里 略 去 后 续 统一 文档 拼装 的 实现 http://www.hzcourse.com/resourc 


} catch (Exception ex) { 
ex.printStackTrace (); 
} 


return response.toString(); 





最 后 在 main 函 数 里 进行 一 组 基本 的 测试 : 





public static void main (String[] args) { 
// TODO Auto-generated method stub 


// 测试 索引 接口 


Map<String, Object> serverParams = new HashMap<>(); 


// 连接 Solr Cloud 的 ZooKeeper 设 置 ， 可 以 根据 你 的 需要 进行 设置 

SerVerParams .Put ("zkHost", "192.168.1.48:9983"); 

// 索引 写 入 哪个 collection， 可 以 根据 你 的 需要 进行 设置 。 这 里 写 入 另 一 个 测试 的 collection 
Ory .Put ("collection", "listing collection bySolrJ"); 

// 初始 


SolrSearchEngineBasic sse = new SolrSearchFEngineBasic (serverParams); 


Map<String, Object> indexParams = new HashMap<>(); 

ListingDocument 1d1 = new ListingDocument ( 
1001，"SolrJ 索 引 测试 标题 1"，100001，"SolrJ 索 引 测试 类 目 1"); 

ListingDocument 192 = new ListingDocument ( 
1002，"SolrJ 索 引 测试 标题 2"，100002，"SolrJ 索 引 测试 类 目 2") ; 

List<ListingDocument> documents = new ArrayList<>(); 

documents.agdd (1d1); 

documents.agdd (192); 

// 索引 测试 文档 


System.out .Println (sse.index (documents, indexParams)); 


sse.cleanup (); 
sse = null; 


// 测试 查询 接口 

// 连接 Solr Cloud 的 ZooKeeper 设 置 ， 可 以 根据 你 的 需要 进行 设置 
SerVerParams .Put ("zkHost", "192.168.1.48:9983") 7 

// 查询 读 取 哪 个 collection， 可 以 根据 你 的 需要 进行 设置 。 
serverParams.put ("collection", "listing collection"); 
sse = new SolrSearchEngineBasic (serverParams); 


Map<String, Object> queryParams = new HashMap<> () 7 
// 查询 关键 词 
queryParams .put ("query"， "西红柿 方便 面 ") 
// 在 两 个 字段 上 进行 春 询 
queryParams .Put ("fields", 
new String[] {"listing title", "category name"}); 





queryParams.put ("start", 0); // 从 第 1 条 结果 记录 开始 
queryParams .put ("rows", 5); // 返回 5 条 结果 记录 
System.out .Println (sse.query (queryParams) ); // 查询 并 输出 


sse.cleanup (); 





本 例 是 在 iMac2015、MacBooPro2013 和 MacBookPro2012 上 搭建 的 Solr 集 群 上 进行 的 测试 ， 请 根据 自身 情况 合理 修改 服务 器 配 


























将 测试 文档 写 入 了 名 为 “listing_collection_bySolrJ” 的 新 文档 集合 。 而 查询 部 分 使 用 了 AND 的 与 操作 ， 保 证 搜索 出 来 的 前 5 条 结果 都 是 与 西红柿 方便 











。 测 试 索引 接口 的 时 候 ， 为 了 不 影响 原 有 的 listing_collection ， 





相关 的 查询 结果 ， 代 码 如 下 所 示 : 





因此 








{responseHeader={zkConnected=true, status=0,QTime=11, params={q= 西 红 柿 AND 方便 面 ， 
defType=edismax,_stateVer =listing collection:120,qf=listing title category name, start=0, 
rows=5, wt=javabin, version=2}},response={numFound=15, start=0,maxScore=23.69772, 
docs=[SolrDocument {1isting title= 可 口 牌 新 加 坡 koka 番茄 汤 方便 面 泡 面 非 油 炸 340g 袋 
进口 方便 面 ，category_name= 万 便 面 ，id=2504，category id=2, version =155772672270034 
5352}， SolrDocument{Iisting title= 桂 冠 台湾 品牌 美 叶 火锅 万 便 速 食 桂冠 就 是 好 吃 

意大利 番茄 肉 交 面 快餐 面 300 克 盒 装 ，category_name= 方 便 面 ，id=2197，category id=2， 
version =1557726722203320320}，SolrDocument listing title=koka 可 口 番茄 汤面 非 油 炸 
入 面 85gx4 340g 袋 ，category_name= 方 便 面 ，id=2382，category_id=2， version = 
1557726721996750848}，SolrDocument{listing title= 五 谷 道场 镍 茄 牛 辜 面 113g 袋 ，cate 
gory_name= 方 便 面 ，id=1959，category id=2, Version =1557726722546204678}，Solr 
Document{listing title= 五 谷 道场 番 闫 牛 胶 面 113g 伐 x 2，category_name= 方 便 面 ，id=1960， 
Category id=2, version =1557726722547253248}]}} 

















3. 使 用 Elasticsearch 客 户 端的 实现 




















与 Solr) 类 似 ， 我 们 将 采用 Elasticsearch 的 客户 端 来 操作 和 访问 Elasticsearch。 第 一 步 仍然 是 在 pom.xml 里 添加 Elasticsearch 相 关 的 依赖 包 ，3 


<!-- https://mnrepository.com/artifact/org.elasticsearch/elasticsearch --> 
<dependency> 
<groupId>org.elasticsearch</groupId> 
<artifactId>elasticsearch</artifactId> 
<version>5.1.2</version> 
</dependency> 


<!-- https://mvnrepository.com/artifact/org.elasticsearch.client/transport --> 
<dependency> 
<groupId>org.elasticsearch.client</groupId> 
<artifactId>transport</artifactId> 
<version>5.1.2</version> 
</dependency> 


<!-- https://mvnrepository.com/artifact/org.apache.1logging.10g4j/10g4j-core --> 
<dependency> 
<groupId>org.apache.1logging.10g4j</groupId> 
<artifactId>1og4j-core</artifactId> 
<version>2.7</version> 
</dependency> 











其 中 log4j 用 于 日 志 输 出 : 




















参照 SolrSearchEngineBasic， 我 们 这 里 也 实现 了 基于 Elasticsearch 的 index 和 query 接 口 。 该 类 主要 包括 如 下 几 个 函数 。 





* public ElasticSearchEngineBasic (Map<String, Object>serverParams) 一 一 这 是 基于 Elas-ticseatch 之 搜索 引擎 的 构造 函数 ， 在 其 中 我 们 将 初始 化 TransportClient， 它 可 以 连接 Elasticsearch 的 集群 : 





public ElasticSearchEngineBasic (Map<String, Object> serverParams) { 
try { 


// 读 取 Elasticsearch 服 务 器 的 TP 地 址 配置 

byte[] serverAddress = (byte [])serverParams.get ("server"); 
// 读 取 Elasticsearch 服 务 器 的 端口 配置 

int port = (int)serverParams.get ("port"); 

// 读 取 集群 名 称 


String cluster = serverParams.get ("cluster") .toString () 7 


// 根据 上 述 配 置 ， 初 始 化 Elasticsearch 客 户 端 
esClient = new PreBuiltTransportClient (Settings .builder () .Put ("cluster. 
name", cluster) .build()) 
.addTransportAddress (new InetSocketTransportAddress (InetAddress.get 
ByAddress (serverAddress), port)); 


} catch (Exception e) { 
// TODO: handle exception 
e.printSstackTrace (); 








“ public void cleanup () 一 一 关闭 Elasticsearch 的 连接 ， 回 收 资 





public void cleanup() { 


// 关闭 TransportClient 的 连接 
if (esClient != null) { 
esClient.close(); 


esClient = null; 





“public String index (List<ListingDocument>documents，Map<String，Object>indexParams) 一 一 实现 之 前 定义 的 索引 接口 ， 其 中 通用 的 ListingDocument 将 被 转换 为 Elasticsearch 能 够 识别 的 字段 HashMap: 





public String index (List<ListingDocument> documents, Map<String, Object> index 
Params) { 


IndexResponse response = null; 


// 适 配 部 分 : 根据 输入 的 统一 文档 ListingDocument， 生 成 并 添加 Elasticsearch 所 使 用 的 HashMap 


for (ListingDocument ld : documents) { 


String indexName = indexParams.get ("index") .toString(); 
String typeName = indexParams.get ("type") .toString (); 


Map<String, Object> fieldsMap = new HashMap<>(); 
fieldsMap.put ("listing id", ld.getListing id()); 
fieldsMap.put ("listing title", ld.getListing title()); 
fieldsMap.put ("category id", ld.getCategory id()); 
fieldsMap.put ("category name", ld.getListing id()); 

// 写 入 集群 的 索引 

response = esClient .prepareIndex (indexName, typeName) 


.SetSource (fieldsMap) 
.get (); 


} 


return response.tosString(); 





“ public String query (Map<String，Object>queryParams) 一 一 实现 之 前 所 定义 的 查询 接口 ， 用 户 的 搜索 请 求 将 被 转换 为 Elasticsearch 的 查询 请 求 : 





public String query (Map<String, Object> queryParams) { 
// TODO Auto-generated method stub 


SearchResponse response = null; 

try { 
// 适 配 部 分 : 根据 输入 的 搜索 请 求 ， 生 成 Elasticsearch 所 能 识别 的 查询 
String indexName = queryParams.get ("index") .toString(); 


String typeName = queryParams.get ("type") .toString(); 
String query = queryParams.get ("query") .toString () 7 


String[] fields = (String []) queryParams.get ("fields"); 
int from = (int) (queryParams.get ("from")); 
int size = (int) (queryParams.get ("size")); 


String mode = queryParams.get ("mode") .toString(); 


QueryBuilgder qb = null; 

if ("MultiMatchQuery".equalsIgnoreCase (mode)) { 
// 基础 查询 的 构造 ， 默 认 使 用 了 OR 的 布尔 操作 ， 相 关 性 较 低 
qb = QueryBuilders.multiMatchQuery (query, fields); 


else { 
// 更 好 的 查询 构造 ， 采 用 AND 的 布尔 操作 ， 提 升 了 相关 性 
String[] terms = query.split("\\s+"); 
for (String term : terms) { 
null) { 
= QueryBuilders .boolQuery () 
.must (QueryBuilders.multiMatchQuery (term, fields)); 
} else { 
qb = QueryBuilders.boolQuery () 
.must (qb) 
.must (QueryBuilders.multiMatchQuery (term, fields)); 


} 





} 
// 获取 查询 结果 


response = esClient .prepareSearch (indexName) .setTypes (typeName) 
.SetSearchType (SearchType .DEFAULT) 
.SetQuery (qb) 
.SetFrom (from) .setSize (size) 
.get (); 


// … 这 里 略 去 后 续 统一 文档 拼装 的 实现 .…. 

} catch (Exception ex) { 
ex.printStackTrace (); 

} 


return response.tostring(); 





同样 ， 在 main 函 数 里 进行 一 组 基本 的 测试 : 





public static void main (String[] args) { 
// TODO Auto-generated method stub 


// Elasticsearch 服 务 器 的 设置 ， 根 据 你 的 需要 进行 设置 

Map<String, Object> serverParams = new HashMap<>(); 
serverParams.put ("server", new byte[]{ (byte)192, (byte)168,1,48}); 
SerVerParams .Put ("port", 9300); 

serverParams.put ("cluster", “ECommerce"); 

// 初始 化 


ElasticSearchEngineBasic ese = new ElasticSearchEngineBasic (serverParams); 


// 测试 索引 接口 
Map<String, Object> indexParams = new HashMap<> () 7 
indexParams .Put ("index", "listing new byclient"); 
indexParams .Put ("type", "listing"); 
ListingDocument 1dql = new ListingDocument ( 
1001， "ES 客户 端 索引 测试 标题 1"，100001， "ES 客户 端 索引 测试 类 目 1") ; 
ListingDocument 192 = new ListingDocument ( 
1002，"ES 客 户 端 索引 测试 标题 2"，100002，"ES 客 户 端 索引 测试 类 目 2") ; 
List<ListingDocument> documents = new ArrayList<>(); 
documents.add (1d1); 
documents .add (1d2); 
// 索引 测试 文档 


System.out .Println (ese.index (documents, indexParams)); 


// 测试 查询 接口 

Map<String, Object> queryParams = new HashMap<> () 7 
// 和 solr 有 所 不 同 ， 需 要 在 这 里 指定 索引 和 类 型 
queryParams .put ("index", "listing new"); 
queryParams.put ("type", "listing"); 

// 查询 关键 词 

queryParams .put ("query"， "西红柿 方便 面 ") ; 

// 在 两 个 字段 上 进行 查询 









queryParams .Put ("fields", new String[] {"listing title", "category name"}); 
queryParams .put ("from", 0); // 从 第 i 条 结果 记录 开始 
queryParams .put ("size", 5); // 返回 5 条 结果 记录 

queryParams .put ("mode", "MultiMatchQuery"); // 选择 基础 查询 模式 
System.out .Println(ese.query (queryParams)); // 查询 并 输出 


queryParams .Put ("mode", "BoolQuery"); // 选择 优化 后 的 查询 模式 


System.out .println (ese.query(queryParams) ) // 再 次 查询 并 输出 


ese.cleanup () 7 


} 











在 查询 的 测试 中 ,我 们 尝试 了 两 种 构建 Elasticsearch 查 询 的 方式 ， 这 里 来 对 比 下 效果 。 图 4-65 是 使 用 默认 的 MultiMatchQuery 的 效果 ， 前 5 项 返回 的 结果 中 有 两 项 只 包含 了 “西红柿 ”相关 的 内 容 , 而 
没有 包含 “方便面”， 相 关 性 较 差 。 而 图 4-66 则 展示 了 第 二 种 优化 模式 的 效果 ， 它 结合 使 用 了 MultiMatchQuery 和 BoolQuery， 相 关 性 比较 好 。 

















1 
"took": 5, 
"timed_out": false, 
"_shards": { 
"votal"s 3; 
"successful": 3, 
"failed": 0 
}， 
"nits"s 攻 
"total": 844, 
"max_score": 12.001797， 
she 工 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVvn8QRoRLyfOJMZ32JUf " ， 
"_score": 12.001797， 
"_source": { 
"listing_id": "2504", 
"listing_title": "可 口 牌 新 加 坡 koka 番茄 汤 方便 面 泡 面 非 油 炸 340g 和 袋 进口 方便 面 "， 
"category_id": "2", 
"category_name" : "方便 面 " 


上 
攻 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVn8QRoTLyf0JMZ32JtW", 
"_score": 8.427633, 
"_source": { 
"listing_id": "4095", 
"listing_title": " 易 猫 生 鲜 海底 捞 番茄 美 颜 火 锅 底 料 番茄 味 200g 和 袋 "， 
"category_id": "3", 
"category_name" : "海鲜 水 产 " 


}, 
t 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVn8QRoelyf0JMZ32Man",， 
"_score": 8.189653, 
"_source": { 
"listing_id": "15184", 
"listing_title": " 佳 利 麦 海南 干 禧 红 圣 女 果 2 斤 装 小 西红柿 番茄 新 鲜 水 果 "， 
"category_id": "11", 
"category_name" : "新 鲜 水 果 " 
} 





图 4-65 ”Elasticsearch 上 默认 的 MultiMatchQuery 效 果 


{ 
"took": 5, 
"timed_out": false, 
"_shards": { 
"total": 3, 
"successful": 3, 
"failed": 0 


:{ 
"total": 16, 
"max_score": 12.001797， 
"hits": [ 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVn8QRoRLyf0JMZ32JUfF", 
"_score": 12.001797， 
"_source": { 
"listing_id": "2504"， 
"listing_title": "可 口 牌 新 加 坡 koka 番 匣 汤 方便 面 泡 面 非 油 炸 340g 袋 进口 方便 面 "， 
"category_id": "2", 
"category_name" : "方便 面 " 


}, 
. 
"_index": "listing_new", 
"_type" : "listing", 
"_id": "AVn8QRoRLyf0J]JMZ32JVy " ， 
"_score": 11.99728, 
"_source": { 
"listing_id": "2587", 
"listing_title": “康师傅 西红柿 鸡蛋 打 应 面 111g 桶 "， 
"category_id": "2", 
"category_name" : "方便 面 " 


}, 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVNn8QRoQLyf0JMZ32JL-", 
"_score": 11.628806, 
"_source": { 
"listing_id": "1959", 
"listing_title": "五 谷 道场 番茄 牛 脑 面 113g 和 袋 "， 
"category_id": "2", 
"category_name" : "方便 面 " 
} 





图 4-66 ”综合 使 用 MultiMatchQuery 和 BoolQuery 后 的 效果 


4. 统 一 的 API 层 





有 了 前 面 两 个 部 分 的 模块 ， 再 构建 一 个 统一 的 API 就 非常 简单 了 ， 下 面 是 一 些 样 例 代码 : 














Private static SolrSearchEngineBasic sse = null; 
Private static ElasticSearchEngineBasic ese = null; 


public static synchronized void init() { 


if (sse = null) { 
Map<String, Object> serverParams = new HashMap<>(); 


// 连接 Solr Cloud 的 ZooKeeper 设 置 ， 可 以 根据 你 的 需要 进行 设置 
serverParams .put ("zkHost", "192.168.1.48:9983"); 

// 索引 写 入 哪个 Collection， 可 以 根据 你 的 需要 进行 设置 。 这 里 写 入 另 一 个 测试 的 collection 
serverParams.put ("collection", "listing collection"); 
// 初始 化 


sse = new SolrSearchEngineBasic (serverParams); 





} 


if (ese == null) { 
// Elasticsearch 服 务 器 的 设置 ， 可 以 根据 你 的 需要 进行 设置 
Map<String, Object> serverParams = new HashMap<>(); 
SerVerParams .Put ("server", new byte[] { (byte)192, (byte)168,1,48}); 
SerVerParams .Put ("port", 9300); 
serverParams.put ("cluster", "ECommerce"); 
// 初始 化 


ese = new ElasticSearchEngineBasic (serverParams); 


} 
public static void index(List<ListingDocument> documents) { 


// 同时 索引 测试 文档 到 Solr 和 Elasticsearch 两 个 集群 
// 这 对 调用 方 是 不 可 见 的 ， 因 此 逻辑 修改 不 影响 调用 方 


// 索引 到 Solz 集 群 
Map<String, Object> indexParams = new HashMap<> () 7 
sse.index (documents, indexParams); 


// 索引 到 Elasticsearch 集 群 
indexParams.clear (); 

indexParams .put ("index", "listing new"); 
indexParams.put ("type", "listing"); 
ese.index (documents, indexParams); 


} 
public static List<ListingDocument> query (String keywords, int page, int number) { 


// 随机 选取 Solr 和 Elasticsearch 和 集群 中 的 一 个 进行 服务 
// 这 对 调用 方 是 不 可 见 的 ， 因 此 逻辑 修改 不 影响 调用 方 


List<ListingDocument> results = new ArrayList<ListingDocument> () 7 


int start = (page - 1) * number; // 假设 page 从 1 开始 计数 
int rows = number; 





long timeMills = System.currentTimeMillis(); 


if (timeMills $ 2 == 0) { // 使 用 Solr 服 务 该 请 求 
Map<String, Object> queryParams = new HashMap<>(); 
// 查询 关键 词 


queryParams .Put ("query", keywords); 
// 在 两 个 字段 上 查询 


queryParams .put ("fields", 








new String[] {"listing title", "category name"}); 
queryParams .put ("start", start); // 从 第 1 条 结果 记录 开始 
queryParams .put ("rows", rows); // 返回 5 条 结果 记录 
String response = sse.query (queryParams); // 查询 结果 


// 解析 Solr 返 回 的 结果 ， 并 封装 成 统一 的 ListingDocument 

// 感 兴趣 的 读者 可 以 自行 实现 

/*for (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/...) { 

*ListingDocument 1d = new http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
results.add (1d) http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/incompressed/16351/0EBPS/Text/... 

$4 


} else { // 使 用 Elasticsearch 服 务 该 请 求 


Map<String, Object> queryParams = new HashMap<>(); 
// 和 solr 有 所 不 同 ， 需 要 在 这 里 指定 索引 和 类 型 
queryParams .put ("index", "listing new"); 
queryParams.put ("type", "listing"); 

// 查询 关键 词 
queryParams .put ("query", keywords); 

// 在 两 个 字段 上 查询 





queryParams.put ("fields", new String[] {"listing title", "category name"}); 
queryParams.put ("from", start); // 从 第 1 条 结果 记录 开始 ” 
queryParams .Put ("size", rows); // 返回 5 条 结果 记录 

queryParams .put ("mode", "BoolQuery"); // 选择 优化 后 的 查询 模式 

String response = ese.query (queryParams); // 查询 结果 


// 解析 Blasticsearch 返 回 的 结果 ， 并 封装 成 统一 的 ListingDocument 

// 感 兴趣 的 读者 可 以 自行 实现 

/*for (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/...) { 

*ListingDocument 1d = new http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
results.add (19) http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 

J 


} 


return results; 


} 
public void cleanup() { 


if (sse != null) { 
sse.cleanup () 7 
sse = null; 


if (ese != null) { 
ese.cleanup (); 
ese = null; 























其 中 比较 重要 的 部 分 是 index 和 query 函 数 的 封装 。index 函 数 内 部 的 逻辑 是 接收 到 新 的 商品 文档 后 ， 同 时 往 Solr 和 Elasticsearch 集 群 中 写 入 索引 。 而 query 函 数 内 部 的 逻辑 是 随机 选择 两 个 集群 中 的 一 
个 ， 对 外 提供 搜索 服务 。 通 过 这 样 的 封装 ， 现 在 对 外 的 接口 都 统一 了 ， 如 下 面 的 代码 所 示 : 








public static void main (String[] args) { 
// TODO Auto-generated method stub 


SearchEngineTest .init (); 


ListingDocument 1ql = new ListingDocument ( 

1001，" 索 引 测试 标题 1"，100001，" 索 引 测试 类 目 1") ; 
ListingDocument 1q2 = new ListingDocument( 

1002， "索引 测试 标题 2"，100002， "索引 测 试 类 目 2") ; 
List<ListingDocument> documents = new ArrayList<> () 7 
documents.add (1d1); 
documents.add (192); 





// 搜索 引擎 内 部 具体 实现 发 生变 化 时 ， 外 部 应 用 程序 的 调用 可 以 保持 不 变 
SearchEengineTest.index (documents); // 索引 新 文档 
SearchEngineTest .query ("西红柿 方便 面 "，2，5) ， // 搜索 第 2 页 ， 每 页 5 项 结果 


SearchEngineTest.cleanup () 7 





“好 的 ， 感 谢 小 明 哥 如 此 详尽 的 介绍 。 现 在 我 对 于 简单 搜索 引擎 的 搭建 有 了 一 个 比较 全 面 的 了 解 。” 








器 














“ 恩 ， 这 些 都 是 比较 基础 的 内 容 。 其 实 ， 一 个 良好 的 搜索 引擎 会 关乎 很 多 方面 ， 随 着 你 们 业务 的 发 展 ， 相 信 还 有 很 多 有 待 改 进 的 空间 。 最 后 ， 请 留意 ， 这 些 都 只 是 测试 性 的 代码 ， 没 有 经 过 完整 的 边 
界 、 压 力 测试 ， 等 等 ， 因 此 其 内 容 仅 供 参考 。 整 个 完整 的 Java Maven 项 目 位 于 : 














https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/SearchEnginelmplementation” 


[由 这 主要 是 因为 请 求 路 径 没有 发 生变 化 ， 全 部 命中 了 Solr 的 缓存 。 
[有 为 了 便于 阅读 ， 建 议 在 浏览 器 中 安装 浏览 JSON 的 插件 ， 例 如 Chrome 中 的 JSON Viewer。 
[] 你 也 可 以 使 用 更 新 (update) 和 删除 (delete) ， 一 次 处 理 多 篇 文档 。 


“第 5 章 方案 设计 和 技术 选 型 : NoSQL 和 搜索 的 整合 
“第 6 章 方案 设计 和 技术 选 型 : 查询 分 类 和 搜索 的 整合 
“第 7 章 方案 设计 和 技术 选 型 : 个 性 化 搜索 


“第 8 章 方案 设计 和 技术 选 型 : 搜索 分 片 








“ 第 0 章 方案 设计 和 技术 选 型 : 搜索 提示 
“ 第 10 章 方案 设计 和 技术 选 型 : 推荐 


自从 大 宝 团 队 将 自家 的 搜索 系统 上 线 后 ， 顾 客 在 其 网 站 上 查找 商品 变 得 更 加 便捷 ， 客 户 体验 得 到 了 提升 。 不 过 ， 问 题 也 随 之 而 来 ， 创 业 核心 团队 发 现 搜索 的 转化 率 相 对 于 其 他 行业 的 竞争 对 手 而 言 ， 明 
显 处 于 一 个 低位 ， 大 约 有 20% 左 右 的 差距 。 于 是 ， 大 家 再 次 将 目光 聚焦 到 全 站 的 搜索 功能 上 ， 大 宝 和 小 丽 分 别 作为 技术 和 业务 的 带头 人 ， 坐 在 一 起 仔细 分 析 这 个 问题 。 


“大 宝 ， 你 知道 的 ， 我 们 的 搜索 系统 虽然 上 线 很 入 了 ， 但 是 还 有 很 多 可 以 改善 的 空间 。” 


“ 嗯 ， 确 实 是 ， 我 最 近 也 收 到 不 少 关于 这 项 功能 的 反馈 ， 主 要 是 搜索 的 商品 范围 有 限 ， 没 有 办 法 搜索 到 促销 商品 和 团购 商品 。 同 时 ， 精 准 度 也 不 是 很 好 ， 搜 索 结果 中 经 常会 有 不 相关 的 商品 排 在 前 面 。 


“看 来 你 已 经 有 所 耳闻 了 ， 这 两 个 确实 是 主要 问题 。 还 有 几 个 小 问题 ， 我 长 话 短 说 ， 有 用 户 反馈 搜索 页 面 的 打开 速度 有 时 会 比较 慢 ， 用 户 没有 足够 的 耐心 等 待 ; 最 后 ， 搜 索 下 拉 框 也 没有 任何 提示 ， 很 
不 方便 。” 


“看 来 问题 不 少 ，” 大 宝 挠 了 挠 头 ，“ 不 过 你 放心 ， 这 些 对 于 我 们 技术 部 来 说 都 不 是 事 。” 


“ 太 好 了 ， 你 办 事 我 放心 。 接 下 来 的 几 周 ， 我 们 逐个 过 一 下 每 个 问题 的 细节 。” 小 丽 冲 着 大 宝 会 心 一 笑 ， 华 况 随 着 磨合 的 深入 ， 彼 此 之 间 越 来 越 有 默 回 了 。 


第 5 章 方案 设计 和 技术 选 型 : NoSQL 和 搜索 的 整合 


5.1 “问题 分 析 


首先 ， 最 为 重要 的 问题 是 解决 搜索 商品 覆盖 面 少 的 情况 。 在 和 促销 业务 及 团购 业务 的 部 门 负责 人 沟通 后 ， 大 宝 了 解 了 他 们 的 痛 点 。 

















促销 的 业务 主要 是 实现 各 种 形式 的 促销 ， 帮 助 线 下 的 店铺 提升 销售 业绩 。 具 体 的 形式 包括 满 额 减 价 、 满 件 减 价 、 满 额 送 赠品 、 定 额 任 选 等 ， 促 销 手 段 的 丰富 程度 令 人 眼花 综 乱 ， 竟 然 有 数 十 种 之 多 。 不 
过 导致 的 结果 就 是 ， 顾 客 在 做 购买 决策 的 时 候 陷入 了 选择 障碍 。 由 于 不 清楚 哪些 商品 参加 了 哪些 活动 ， 用 户 很 难 弄 清楚 购买 哪些 商品 会 更 经 济 实惠 。 因 此 ， 促 销 的 业务 人 员 希 望 能 够 有 一 个 搜索 功能 ， 人 允许 
户 查 找 参加 某 个 促销 活动 的 商品 到 底 有 哪些 。 当 然 ， 在 促销 活动 中 ， 根 据 分 类 和 关键 词 再 次 缩小 查询 范围 ， 也 是 更 好 的 附加 功能 。 




































































而 团购 的 业务 方 ， 更 为 看 中 的 是 搜索 带 来 的 关键 词 查询 和 逢 选 能 力 。 之 前 的 团购 是 采用 数据 库 SQL 的 查找 来 实现 的 。 在 业务 的 初期 ， 团 购 主要 通过 不 同 的 频道 来 实现 ， 例 如 水 产 频道 有 阳澄湖 大 闸 蟹 团 
购 ， 数 码 频道 有 Apple iPad Pro 团 购 ， 时 尚 频道 有 爱马仕 箱包 团购 等 。 用 户 只 需要 在 限定 的 频道 内 浏览 ，SQL 查 询 毫 无 压力 。 但 是 随 着 团购 商品 和 用 户 访问 量 的 增加 ， 关 键 词 搜索 的 需求 被 提 到 议事 日 程 之 
上 。 这 时 ，SQL 模 糊 型 的 关键 词 匹 配 就 出 现 了 性 能 瓶颈 ， 而 且 越 来 越 明显 。 此 外 ， 它 也 没 法 提供 开源 搜索 系统 中 自 带 的 切面 (Facet) 或 是 聚集 (Aggregation) 功能 。 
























































































































































大 宝 仔细 观察 了 一 下 这 些 数据 ， 发 现 这 些 商品 其 实 已 经 被 全 站 的 搜索 引 丈 收录 ， 只 是 促销 商品 没有 相关 的 促销 信息 ， 而 团购 商品 没有 相关 的 团购 信息 。 经 过 一 阵 思考 ， 他 隐约 觉得 这 些 都 可 以 融入 同一 
个 搜索 引擎 中 来 实现 。 如 果 不 能 融合 ， 那 就 意味 着 每 接受 一 个 新 的 商品 搜索 需求 ， 可 能 就 要 建立 一 个 全 新 的 搜索 集群 ， 无 论 对 于 开发 、 部 署 还 是 维护 ， 这 都 将 是 一 个 灾难 。 此 外 ， 除 了 不 同 的 业务 形态 ， 第 
三 方 内 容 的 不 一 致 性 也 极 大 地 影响 了 数据 的 集成 。 因 为 是 一 个 O2O 平 台 ， 所 以 会 有 很 多 第 三 方 的 线 下 商铺 加 盟 。 然 而 由 于 历史 的 原因 ， 他 们 所 使 用 的 大 都 是 不 同 的 ERP 系 统 ， 数 据 格式 也 大 相 径 庭 。 为 了 能 
够 接 入 大 宝 团队 的 平台 ， 原 有 商铺 数据 必须 经 过 逐一 转换 。 然 而 过 于 严 苟 的 关系 型 数据 库 将 会 耗费 技术 和 运营 团队 大 量 的 时 间 和 精力 。 考 虑 到 这 两 大 因素 ， 当 务 之 急 是 需要 一 个 高 效 的 融合 方案 ,可 以 便捷 
地 将 不 同 的 数据 源 集成 起 来 ， 并 塞 入 Solr 或 Elasticsearch 的 搜索 引擎 中 。 










































































为 了 克服 这 个 数据 集成 的 需求 ， 大 宝 必须 要 修改 DIH 这 种 数据 导入 的 方式 。 因 为 DIH 通 常用 于 将 数据 从 关系 型 数据 库 中 导入 到 Solr。 昌 然 导 入 非常 方便 ， 但 是 关系 型 数据 库 对 于 数据 定义 schema 要 求 非 
常 严 格 ， 同 一 张 表 里 的 数据 必须 要 有 同样 的 字段 。 如 果 仍然 使 用 DIH， 那 么 就 可 能 意味 着 要 使 用 如 下 两 种 做 法 。 







































































“ 第 一 种 ， 在 关系 型 数据 库 里 设置 一 个 宽 表 ， 所 有 的 商品 拥有 所 有 的 字段 。 那 么 ， 即 使 不 是 促销 的 商品 也 必须 要 有 促销 相关 的 字段 ， 不 是 团购 的 商品 也 需要 有 团购 相关 的 字段 ， 这 势必 导致 很 多 字段 都 
是 宛 余 和 浪费 的 ， 会 影响 表 数 据 更 新 的 性 能 ， 不 利于 数据 库 的 维护 。 


第 二 种 ， 需 要 将 商品 的 基本 信息 、 促 销 信息 、 团 购 信 息 放 入 到 不 同 的 表 中 ， 然 后 进行 连接 (Join) 操作 ， 这 无 疑 会 加 大 SQL 语句 的 复杂 程度 和 执行 时 间 。 新 的 业务 类 型 越 多 ， 数 据 种 类 越 多 ， 那 么 DIH 
的 效率 就 会 越 差 ， 不 利于 今后 需求 的 扩展 ， 也 不 利于 搜索 索引 系统 的 维护 。 








这 时 ， 小 明 给 出 了 建议 : “我 们 可 以 使 用 一 些 NoSQL 的 数据 库 ， 例 如 Hadoop 家 族 的 HBase。 











“什么 是 HBase? “ 


第 5 章 方案 设计 和 技术 选 型 : NoSQL 和 搜索 的 整合 


5.1 “问题 分 析 











首先 ， 最 为 重要 的 问题 是 解决 搜索 商品 覆盖 面 少 的 情况 。 在 和 促销 业务 及 团购 业务 的 部 门 负责 人 沟通 后 ， 大 宝 了 解 了 他 们 的 痛 点 。 























促销 的 业务 主要 是 实现 各 种 形式 的 促销 ， 帮 助 线 下 的 店铺 提升 销售 业绩 。 具 体 的 形式 包括 满 额 减 价 、 满 件 减 价 、 满 额 送 赠品 、 定 额 任 选 等 ， 促 销 手 段 的 丰富 程度 令 人 眼花 综 乱 ， 竟 然 有 数 十 种 之 多 。 不 
过 导致 的 结果 就 是 ， 顾 客 在 做 购买 决策 的 时 候 陷入 了 选择 障碍 。 由 于 不 清楚 哪些 商品 参加 了 哪些 活动 ， 用 户 很 难 弄 清楚 购买 哪些 商品 会 更 经 济 实惠 。 因 此 ， 促 销 的 业务 人 员 希 望 能 够 有 一 个 搜索 功能 ， 人 允许 
户 查 找 参加 某 个 促销 活动 的 商品 到 底 有 哪些 。 当 然 ， 在 促销 活动 中 ， 根 据 分 类 和 关键 词 再 次 缩小 查询 范围 ， 也 是 更 好 的 附加 功能 。 






















































































而 团购 的 业务 方 ， 更 为 看 中 的 是 搜索 带 来 的 关键 词 查询 和 筛选 能 力 。 之 前 的 团购 是 采用 数据 库 SQL 的 查找 来 实现 的 。 在 业务 的 初期 ， 团 购 主要 通过 不 同 的 频道 来 实现 ， 例 如 水 产 频 道 有 阳澄湖 大 闸 蟹 团 
， 数 码 频道 有 Apple iPad Pro 团 购 ， 时 尚 频道 有 爱马仕 箱包 团购 等 。 用 户 只 需要 在 限定 的 频道 内 浏览 ，SQL 查 询 毫 无 压力 。 但 是 随 着 团购 商品 和 用 户 访问 量 的 增加 ， 关 键 词 搜索 的 需求 被 提 到 议事 日 程 之 
上 。 这 时 ，SQL 模 糊 型 的 关键 词 匹 配 就 出 现 了 性 能 瓶颈 ， 而 且 越 来 越 明显 。 此 外 ， 它 也 没 法 提供 开源 搜索 系统 中 自 带 的 切面 (Facet) 或 是 聚集 (Aggregation) 功能 。 
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大 宝 仔细 观察 了 一 下 这 些 数据 ， 发 现 这 些 商品 其 实 已 经 被 全 站 的 搜索 引 丈 收录 ， 只 是 促销 商品 没有 相关 的 促销 信息 ， 而 团购 商品 没有 相关 的 团购 信息 。 经 过 一 阵 思考 ， 他 隐约 觉得 这 些 都 可 以 融入 同一 
个 搜索 引擎 中 来 实现 。 如 果 不 能 融合 ， 那 就 意味 着 每 接受 一 个 新 的 商品 搜索 需求 ， 可 能 就 要 建立 一 个 全 新 的 搜索 集群 ， 无 论 对 于 开发 、 部 署 还 是 维护 ， 这 都 将 是 一 个 灾难 。 此 外 ， 除 了 不 同 的 业务 形态 ， 第 
三 方 内 容 的 不 一 致 性 也 极 大 地 影响 了 数据 的 集成 。 因 为 是 一 个 O2O 平 台 ， 所 以 会 有 很 多 第 三 方 的 线 下 商铺 加 盟 。 然 而 由 于 历史 的 原因 ， 他 们 所 使 用 的 大 都 是 不 同 的 ERP 系 统 ， 数 据 格式 也 大 相 径 庭 。 为 了 能 
够 接 入 大 宝 团队 的 平台 ， 原 有 商铺 数据 必须 经 过 逐一 转换 。 然 而 过 于 严 苟 的 关系 型 数据 库 将 会 耗费 技术 和 运营 团队 大 量 的 时 间 和 精力 。 考 虑 到 这 两 大 因素 ， 当 务 之 急 是 需要 一 个 高 效 的 融合 方案 ,可 以 便捷 
地 将 不 同 的 数据 源 集成 起 来 ， 并 塞 入 Solr 或 Elasticsearch 的 搜索 引擎 中 。 






















































































为 了 克服 这 个 数据 集成 的 需求 ， 大 宝 必须 要 修改 DIH 这 种 数据 导入 的 方式 。 因 为 DIH 通 常用 于 将 数据 从 关系 型 数据 库 中 导入 到 Solr。 昌 然 导 入 非常 方便 ， 但 是 关系 型 数据 库 对 于 数据 定义 schema 要 求 非 
常 严 格 ， 同 一 张 表 里 的 数据 必须 要 有 同样 的 字段 。 如 果 仍然 使 用 DIH， 那 么 就 可 能 意味 着 要 使 用 如 下 两 种 做 法 。 










































































“ 第 一 种 ， 在 关系 型 数据 库 里 设置 一 个 宽 表 ， 所 有 的 商品 拥有 所 有 的 字段 。 那 么 ， 即 使 不 是 促销 的 商品 也 必须 要 有 促销 相关 的 字段 ， 不 是 团购 的 商品 也 需要 有 团购 相关 的 字段 ， 这 势必 导致 很 多 字段 都 
是 宛 余 和 浪费 的 ， 会 影响 表 数 据 更 新 的 性 能 ， 不 利于 数据 库 的 维护 。 


“第 二 种 ， 需 要 将 商品 的 基本 信息 、 促 销 信息 、 团 购 信 息 放 入 到 不 同 的 表 中 ， 然 后 进行 连接 (Join) 操作 ， 这 无 疑 会 加 大 SQL 语句 的 复杂 程度 和 执行 时 间 。 新 的 业务 类 型 越 多 ， 数 据 种 类 越 多 ， 那 么 DIH 
的 效率 就 会 越 差 ， 不 利于 今后 需求 的 扩展 ， 也 不 利于 搜索 索引 系统 的 维护 。 

















这 时 ， 小 明 给 出 了 建议 : “我 们 可 以 使 用 一 些 NoSQL 的 数据 库 , 例 如 Hadoop 家 族 的 HBase。” 


“什么 是 HBase?“ 


5.2 ”HBase 简 介 








在 第 1 章 中 ， 我 们 介绍 了 Hadoop 家 族 的 HDFS。 与 传统 的 文件 系统 相似 ，HDFS 解 决 了 数据 存储 的 基本 问题 。 可 是 ， 作 为 文件 系统 ，HDFS 同 样 面 临 一 个 问题 : 缺乏 良好 的 数据 组 织 和 访问 ， 对 于 开发 大 
型 应 用 而 言 ， 这 实在 是 不 太 方便 ， 因 此 需要 一 个 类 似 传统 关系 型 数据 库 的 管理 系统 。 在 此 大 环境 下 ，Apache HBase (http://hbase.apache.org/) 应 运 而 生 了 。HBase 是 Apache 的 Hadoop 项 目的 子 项 
目 ， 当 前 最 新 版 本 是 1.3.0。 它 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 该 技术 同样 是 受 Google 的 一 篇 论文 所 启发 ， 即 “Bigtable: 一 个 结构 化 数据 的 分 布 式 存储 系统 ” (“Bigtable: A Distributed 
Storage System for Structured Data”) 。Bigtable 利 用 了 Google 文 件 系统 (GFS) 来 提供 分 布 式 数据 存储 ， 类 似 地 ，HBase 是 在 Hadoop 的 HDFS 基 础 之 上 提供 了 Bigtable 的 能 力 。Hadoop 和 Database 
两 个 英文 单词 的 者 加 也 是 HBase 英 文 名 称 的 由 来 。HBase 不 同 于 一 般 的 关系 型 数据 库 ， 它 是 一 个 适合 于 非 结构 化 数据 的 数据 库 ， 最 大 的 特点 是 基于 列 而 不 是 基于 行 的 模式 进行 存储 。 那 么 ，HBase 为 什么 要 
选择 这 样 的 NoSQL 设 计 方式 呢 ? 如 此 的 设计 又 能 带 来 哪些 好 处 呢 ? 为 了 更 好 地 理解 这 些 ， 我 们 先 来 简单 回顾 下 关系 型 SQL 数据 库 的 背景 。 
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众所周知 ， 关 系 型 数据 库 的 核心 元 素 是 ER (EntityRelation) 图 (实体 -联系 图 ，Entity Relationship Diagram) 。 在 实际 的 系统 实现 中 ， 关 系 模型 都 是 通过 二 维 表格 来 表示 的 ， 一 个 关系 型 数据 库 就 是 
由 若干 个 二 维 表格 和 它们 之 间 的 联系 所 组 成 的 。 图 5-1 借 用 员工 参加 公司 俱乐部 的 例子 ， 展 示 了 从 ER 图 到 二 维 表 的 转化 过 程 。 



























































员工 信息 表 
员工 ID 姓名 年 龄 性 别 
001 JE 32 女 
002 A 35 男 


俱乐部 ID 


001 002,003 要 
002 001,003 系 






俱乐部 信息 表 


名 称 项 目 负责 人 经 费 活动 日 








俱乐部 ID 





001 轻 舞 飞扬 ”羽毛 球 赵 六 6,000 每 周 四 





002 弹 走 鱼尾纹 ”乒乓 球 陈 二 5,000 每 周二 
003 如 鱼 得 水 游泳 EE 12,000 每 周 五 
图 5-1 员工 和 俱乐部 的 二 维 表 设 计 





























其 中 ， 俱 乐 部 的 ID 在 现实 场景 中 可 能 并 不 存在 ， 但 是 由 于 处 理 的 需要 ， 数 据 库 系 统一 般 会 自动 添加 这 个 属性 。 除 此 以 外 ， 每 张 表 格 的 列 都 是 对 应 ER 图 中 实体 的 一 个 属性 ， 例 如 员工 信息 表 中 就 有 员工 
1D、 姓 名 、 年 龄 和 性 别 共 4 列 属性 ， 而 俱乐部 表格 中 的 列 也 包括 了 名 称 、 项 目 、 负 责 人 、 经 费 和 活动 日 的 属性 。 在 数据 库 中 这 些 列 称 为 “字段 ”。 表 的 每 一 行 则 代表 一 个 实体 ， 例 如 员工 信息 表 的 第 一 行 代表 
员工 张 三 ， 而 俱乐部 信息 表 的 第 三 行 代表 “如鱼得水 ”游泳 俱乐部 。 在 数据 库 中 这 些 行 称 为 “记录 ” 。 而 我 们 可 通过 增加 第 三 张 表 格 (参加 关系 表 ) 来 体现 员工 和 俱乐部 之 间 的 关系 ， 从 参加 关系 表 中 可 以 
看 出 ，001 号 员工 张 三 参 加 了 乒乓 球 和 游泳 俱乐部 。 如 果 需 要 使 用 SQL 来 针对 这 些 表 格 进行 查询 ， 也 是 非常 方便 的 ， 下 面 列 出 几 个 最 基本 的 使 用 案例 : 































































































SELECT 姓名 FROM 员工 信息 表 含义 : 返回 "员工 信息 表 “ 中 所 有 员工 的 姓名 


INSERT INTO 俱乐部 信息 表 VALUES 《〈\ 夸 父 追 日 /，\ 慢 跑 ” 九 ”，*3,000”，" 每 周 六 ”) 


含义 : 建立 新 的 "慢跑 “俱乐部 





不 难 发 现 ， 这 种 关系 型 数据 库 有 着 非常 明显 的 优势 ， 具 体 如 下 。 











“ 理解 容易 : 相信 大 家 从 图 5-1 中 己 经 看 出 来 了 ， 二 维 表 非 常 贴近 人 类 的 思维 逻辑 。 





“ 性 能 良好 : 提供 了 强大 的 索引 功能 ， 能 方便 地 查询 各 种 数据 集合 。 





“ 使 用 方便 : SQL (结构 化 查询 语言 ) 入 门 简单 ， 同 时 也 能 实现 比较 复杂 的 逻辑 ， 使 用 者 无 须 考虑 过 多 的 实现 细节 。 





“ 维护 便捷 : 提供 了 事务 保证 数据 的 一 致 性 ， 大 幅 降低 了 数据 的 完 余 和 不 一 致 概率 。 











正 是 因为 有 着 诸多 明显 的 优势 ， 即 使 是 在 NoSQL 概 念 炒 得 异常 火热 的 今天 ， 关 系 型 SQL 数 据 库 仍然 有 着 举足轻重 和 无 法 蔡 代 的 地 位 。 多 数 的 银行 系统 、 企 业内 部 企业 资源 规划 (Enterprise Resource 


Planning，ERP) 系统 还 在 使 用 稳健 的 关系 型 数据 库 ， 其 事务 性 保证 了 每 笔 交 易 的 准确 无 误 。 当 然 ， 关 系 型 数据 库 在 互联 网 和 大 数据 的 时 代 ， 也 面临 了 前 所 未 有 的 巨大 挑战 ， 其 某 些 方面 的 不 足 也 逐渐 凸显 
出 来 。 









































“ 处 理性 能 不 足以 应 付 海量 数据 : 关系 型 数据 库 的 数据 准确 性 主要 得 益 于 事务 性 的 保证 ， 可 是 ， 事 务 一 致 性 需要 消耗 更 多 的 处 理 资 源 。 互 联网 使 得 数据 量 疯 狂 的 膨胀 ， 某 些 热门 网 站 每 日 的 用 户 访问 量 
和 并 发 量 都 是 惊人 的 。 如 果 还 要 保持 事务 性 ， 那 么 处 理 速 度 就 明显 跟 不 上 数据 的 增长 速度 了 。 而 且 在 互联 网 的 应 用 中 ， 数 据 的 准确 性 要 求 没有 银行 、 金 融 或 电信 等 行业 那么 高 。 例 如 ， 当 我 们 收集 用 户 访问 
网 站 的 行为 数据 时 ， 在 菜 个 时 间 点 的 点 击 记录 即使 发 生 了 延迟 甚至 是 丢失 ， 对 整体 的 分 析 并 无 大 碍 ， 也 不 会 产生 经 济 上 的 损失 。 这 个 时 候 关系 型 数据 库 的 强 事务 性 就 失去 了 优势 。 


“ 数据 库 的 表 结 构 不 够 灵活 : 关系 型 数据 库 建立 在 ER 和 关系 模型 上 ， 因 此 在 表格 的 设计 之 初 需要 定义 严格 的 模式 (Schema) 。 一 旦 确定 了 schema， 那 么 每 行 的 记录 都 需要 严格 遵守 这 个 规定 。 万 一 需 
修改 ， 整 个 过 程 也 是 比较 复杂 的 。 修 改 完毕 后 ， 既 有 的 所 有 记录 都 要 根据 这 个 新 的 schema 做 相应 的 调整 。 然 而 ， 互 联网 领域 强调 的 就 是 “变化 ”。 每 时 每 刻 都 在 诞生 创新 的 想法 ， 项 目的 进度 都 是 走 的 敏捷 
选 代 方式 ， 因 此 数据 的 定义 不 可 能 一 成 不 变 。 频 繁 的 改动 会 使 得 关系 数据 库 疲 于 应 付 。 























由 于 不 能 很 好 地 适应 互联 网 时 代 的 数据 处 理 需求 ， 人 们 开始 设计 NoSQL 的 方案 以 用 作 补充 。 针 对 上 述 两 个 主要 的 不 足 ，HBase 首 先 集成 了 Hadoop 的 HDFS， 用 于 提供 可 水 平 扩展 的 能 力 ， 为 大 规模 数 
据 量 做 好 了 准备 。 另 外 ，HBase 还 提供 了 非常 灵活 的 列 式 存储 ， 这 是 有 别 于 关系 型 数据 库 的 行 式 存储 方式 。 关 于 列 式 和 行 式 存储 的 差异 ， 可 通过 公司 俱乐部 的 案例 来 做 进一步 说 明 。 假 设 小 王 是 某 大 公司 的 
人 力 资源 专员 ， 她 有 一 项 重要 的 任务 是 负责 员工 的 福利 事宜 ， 其 中 就 包括 员工 的 业余 爱好 俱乐部 。 一 日 ， 主 管 让 小 王将 全 公司 员工 所 参加 的 俱乐部 情况 统计 一 遍 ，3 天 之 内 完成 。 非 常 遗憾 的 是 ， 这 家 公司 还 
















































































没有 将 这 些 信息 接 入 ERP 系 统 ， 全 公司 10000 多 名 员工 的 俱乐部 资料 ， 全 部 需要 小 王 手工 整理 出 来 。 即 使 加 班 加 点 ， 对 她 而 言 3 天 完成 也 是 不 可 能 的 。 咋 办 呢 ? 小 王 只 好 向 老板 申请 增加 几 名 实习 生 ， 对 于 实 
习 生 ， 她 是 这 么 安排 的 : 按照 公司 的 部 门 来 划分 ，4 个 实习 生 加 上 自己 ， 共 同 处 理 公司 五 大 部 门 的 事务 ， 具 体内 容 分 派 大 约 如 图 5-2 所 示 。 
一 | 立 
员工 ID 俱乐部 ID 
00037 004,008 
吕 名 立 
专员 小 王 人 事 和 财务 音 
00096 001,005 


00018 005,006 

实习 生 小 黄 00024 001,007 技术 部 
00001 002,003 

实习 生 小 鲁 00045 003,004 产品 部 
00002 001,003 

实习 生 小 林 00104 001,009 运营 部 
00073 006,010 

实习 生 小 刘 00098 008,011 市 场 部 





图 5-2 ”小 王 给 实习 生 们 的 分 工 方案 A 





























小 王将 这 种 方式 称 为 方案 A。 通 过 3 天 的 艰苦 奋斗 ， 小 王 终于 将 材料 按时 提交 给 了 主管 。 主 管 看 过 后 非常 满意 ， 小 王 对 自己 的 工作 安排 也 很 是 得 意 。 可 是 ， 没 过 几 天 ， 主 管 又 提出 了 新 的 需求 : 她 想 知道 
每 位 员工 参加 俱乐部 活动 的 出 席 率 如 何 。 于 是 小 王 和 每 位 实习 生 只 能 再 次 统计 一 遍 。 又 过 了 几 天 ， 主 管 提出 她 还 想 知 道 每 位 员工 参加 俱乐部 比赛 之 后 ， 获 得 名 次 的 情况 。 新 的 需求 在 不 断 增 加 ， 每 次 小 王 和 
实习 生 都 非常 辛苦 。 而 且 一 旦 员工 参加 了 新 的 俱乐部 ， 或 者 是 出 席 率 发 生 了 变化 ， 数 据 更 新 的 工作 又 将 是 无 法 避免 的 。 小 王 开始 思考 ， 这 样 的 分 工 真 的 是 合理 的 吗 ” 有 没有 可 能 换 一 种 方式 ”她 发 现 主要 的 
变化 大 多 是 新 增 的 统计 项 目 ， 而 且 新 增 的 项 目 也 不 一 定 适合 所 有 员工 ， 例 如 俱乐部 比赛 名 次 ， 有 些 俱 乐 部 根本 不 组 织 比赛 ， 也 就 无 所 谓 比赛 名 次 了 。 那 么 ， 如 果 让 每 个 实习 生 专 职 负责 若干 统计 项 目 ， 工 作 
效率 是 否 会 更 高 呢 ? 例如 根据 图 5-3 的 形式 来 派 分 工作 。 






























































这 次 ， 小 王 是 负责 统计 员工 参加 了 哪些 俱乐部 ， 而 其 他 4 位 实习 生 分 别 统计 出 席 率 ， 比 赛 名 次 、 赞 助 经 费 和 俱乐部 内 的 职务 。 如 果 再 有 新 的 项 目 需要 统计 ， 小 王 也 分 会 配给 某 人 专职 来 维护 。 小 王将 其 称 


























为 方案 B。 相 对 于 方案 A， 方 案 B 的 好 处 在 于 ， 如 果 只 是 新 增 或 更 新 某 一 项 数据 ， 只 需要 一 位 人 员 来 操作 即 可 ， 而 其 他 人 完全 可 以 不 用 理会 。 如 果 将 来 这 些 数据 不 再 由 人 工 操作 ， 而 小 王 和 小 伙伴 们 的 工作 也 


交 给 计算 机 来 处 理 的 话 ， 





























那么 A 方案 对 应 的 就 是 行 式 存储 ， 而 8B 方案 对 应 的 就 是 列 式 存 储 。 两 者 识 优 训 劣 并 无 定论 ， 而 是 要 看 具体 的 应 用 场合 。 刚 刚 提 到 小 王 的 主管 提出 的 新 需求 很 多 ， 经 常 需要 增加 统计 项 














目 ， 这 就 对 应 于 二 维 表 中 列 的 维护 ， 因 此 适合 进行 列 式 存储 。 再 假设 一 下 ， 主 管 没有 那么 多 需求 ， 但 是 经 常 有 新 员工 入 职 ， 每 位 员工 对 应 于 二 维 表 中 的 一 行 ， 那 么 就 会 涉及 行 的 维护 ， 此 时 行 存储 就 更 适 








合 。 如 果 这 个 时 候 还 采 























列 存储 ， 就 意味 着 每 次 新 增 员 工 ， 所 有 的 小 伙伴 们 都 要 修改 手头 的 表格 。 
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00037  } 004008 |! 20% | / : 200 : / 
00096 ; 001005 |! 25% ' 2 | 300 : / 
1 | - 
wa. ae. 和 a0. H se. H ss 0. 
00018 ! 005,006 ! 6% ! 5 ! 200 ， 1 
00024 ! 001007 ! 8% 2 ! 200 ! 裁判 
00001  ! 002003 |! 35% ! f | 300 ! / 
00045  ! 003,004 |! 25% 1 5 ! 100 : y 
00002  } 001003 | 8% | 100 : 教练 
00104 !: 001009 ， 24% ' 4 ! 200 ! / 
1 | | 
| - | | 
00073 ! 006,010 |! 30% ! 3 ! 300 ! 裁判 
00098  } 008,011 |! 56% ' / | 300 : / 


在 了 解 列 式 存储 相对 于 行 式 存储 的 优势 之 
断 优化 ， 定 义 修改 所 导致 的 历史 数据 更 新 成 本 


后 ， 我 们 就 能 明白 








“ 表格 (Table) : HBase 同 样 用 二 维 表格 来 组 织 数据 。 


也 会 更 小 。 接 下 来 看 看 HBase 





5-3 ”小 王 新 的 分 工 方案 B 











为 什么 列 式 存储 更 适合 























缮 网 灵活 多 变 的 环境 了 ， 它 并 不 要 求 开发 者 在 起 初 就 给 出 完美 的 数据 schema 定 义 ， 而 是 允许 在 随后 的 进展 过 程 中 不 











了 怎样 的 数据 模型 来 实现 列 式 存储 。 下 面 首先 列 出 几 个 关键 的 概念 。 














“ 行 (Row) : 在 表格 里 ， 每 一 行 代 表 一 条 记录 ， 这 和 关系 型 数据 库 是 一 致 的 。 每 行 均 可 通过 行 键 (Row Key) 进行 唯一 的 标识 。 


“ 列 族 (Column Family) : 了 解 这 点 很 关键 ， 行 里 的 字段 按照 列 族 进行 分 组 ， 可 以 看 作 是 一 堆 属 性 或 字段 的 集合 。 列 族 的 定义 决定 了 HBase 数 据 的 物理 存放 。 因 此 ， 列 族 需要 预先 定义 ， 而 且 不 要 轻易 修 
改 。 每 行 都 拥有 相同 的 列 族 ， 不 过 HBase 并 不 要 求 每 个 列 族 都 存储 数据 。 这 也 是 为 了 满足 灵活 的 数据 定义 需求 。 


: 列 限定 符 (Column Qualifier) : 列 族 里 包括 多 个 属性 ， 限 定 符 可 以 帮助 定位 列 族 里 的 数据 。 和 列 族 不 同 的 是 ， 列 的 限定 符 没有 必要 预先 进行 定义 ， 因 此 每 行 可 以 拥有 不 同 数量 和 名 称 的 限定 符 。 图 5-3 
中 的 表格 存在 很 多 “/” 空 缺 值 ， 对 于 这 样 的 表格 ， 灵 活 的 列 限定 符 可 以 减少 不 必要 的 存储 ， 提 升 处 理 稀 鸣 矩阵 的 能 力 。 


“单元 (Cell) : 二 维 表 里 的 单元 格 ， 可 通过 行 键 、 列 族 和 列 限定 符 唯一 确定 。 存 储 在 其 中 的 值 称 为 单元 值 (Cell Value) 。 


“版 本 (Version) : 注意 ， 这 是 HBase 和 很 多 数据 库 的 不 同 之 处 。 即 使 单元 被 确定 了 ， 里 面 的 单元 值 仍然 可 以 根据 时 间 的 不 同 ， 拥 有 多 个 版 本 。 版 本 用 时 间 鹤 (Timestamp) 来 标识 。 读 取 的 时 候 如 果 没 


有 指定 时 间 鹤 ， 则 上 默认 获取 最 近 的 版 本 。 


如 果 将 行 键 和 列 限定 符 对 应 于 关系 型 数据 库 的 行 和 列 ， 那 和 HBase 主 要 就 多 了 允 























族 和 版 本 。 记 住 这 6 个 主要 概念 ， 理 解 HBase 读 取 数 据 的 机 制 就 不 困难 了 。 从 图 5-4 中 可 以 看 出 HBase 的 坐标 体系 。 其 中 




















最 有 趣 的 地 方 在 于 ，HBase 中 可 以 不 用 提供 全 部 坐标 。 如 果 只 提供 行 键 ， 那 么 就 返回 某 行 的 整 行 。 如 果 提 供 行 键 、 列 族 和 列 限定 符 ， 那 么 就 返回 某 行 某 列 的 最 新 单元 值 。 再 进一步 ， 如 果 同时 提供 了 行 键 、 











列 族 、 列 限定 符 和 时 间 戳 ， 那 么 就 返回 某 行 某 列 和 




















a 元 值 的 某 个 版 本 。 


列 族 - 信息 
行 键 俱乐部 ID 出 席 率 比赛 名 次 赞助 经 费 










00037 004,008 20% / 200 

00096 001,005 25% 2 300 / 
00018 005,006 6% 5 200 / 
00024 001,007 8% » 200 裁判 
00001 002,003 35% / 300 / 
00045 003,004 25% 5 100 / 
00002 001,003 8% 1 100 练 
00104 001,009 24% 4 200 / 
00073 006,010 30% 3 300 裁判 
00098 008,011 56% / 300 / 


列 限 定 符 


时 间 截 : 2016 年 1 月 一 一 值 : 008, 011 > 
元 


时 间 戳 : 2015 年 2 月 二 一 值 : 008, 010 
时 间 截 : 2014 年 9 月 二 一 值 : 版 本 





图 5-4 HBase 的 主要 概念 : 行 键 、 列 族 、 列 限定 符 、 单 元 和 版 本 








其 中 ， 如 果 给 定 行 键 00096， 将 返回 如 下 信息 : 











{ 俱 乐 部 ID: “001，005”， 出 席 率 : “25%”， 比 赛 名 次 : “2”， 赞 助 经 费 : “300”} 





如 果 给 定 行 键 00096、 列 族 “ 信 息 ” 和 列 限定 符 “ 出 席 率 ”， 那 么 将 返回 出 席 率 : “2596” 











如 果 给 定 行 键 00098、 列 族 “ 信 息 ”、 列 限定 符 “ 俱 乐 部 ID” 和 时 间 戳 “2015 年 ?月 ”， 那 么 返回 值 将 是 “008，010”。 














了 解 完 HBase 的 基本 概念 和 数据 模型 ， 再 来 看 下 它 的 体系 架构 (如 图 5-5) 。 为 了 保证 良好 的 扩充 性 和 并 行 处 理 能 力 ，HBase 是 架构 在 Hadoop 的 HDFS 上 的 。 此 外 ， 它 通过 HRegion 和 HStore 来 实现 列 
族 的 存储 。 具 体 来 说 ， 其 中 的 主要 元 素 如 下 。 

















“ HMaster: 类 似 HDFS 的 命名 节点 ，HBase 使 用 HMaster 主 节点 协调 和 管理 多 个 HRegion 服 务 器 (HRegionServer) 节点 。HMaster 本 身 并 不 存放 具体 的 数据 。HRegion 的 服务 器 也 是 通过 ZooKeeper 来 协调 


“ HRegion: HBase 的 表 在 远 辑 上 可 以 划分 为 多 个 Region。 随 着 数据 的 不 断 增加 ， 一 张 表 会 被 拆 分 为 多 块 。 每 一 块 就 是 一 个 HRegion， 保 存 一 段 连 续 的 数据 。 数 据 都 是 通过 底层 的 HStore、 
HFile (StoreFile) 和 MemStore 来 实现 的 。 每 个 HStore 对 应 于 一 个 列 族 ，HFile 和 MemStore 分 别 是 文件 和 内 存 的 存储 。 此 外 ，HRegion 中 还 包含 了 HLog 来 记录 日 志 以 便于 事故 后 的 恢复 。 


* HRegion 服 务 器 (HRegionServer) : 多 个 HRegion 由 HRegion 服 务 器 来 管理 。 


这 种 模式 ， 从 二 维 表 的 视角 上 看 会 导致 表 列 越 来 越 多 ， 越 来 越 宽 ， 因 此 我 们 也 可 以 形象 地 将 其 称 为 “ 宽 表 ”。 


HMaster 
主 节点 


Xelelw= el 






HRegion 服务 器 HRegion 服务 器 HRegion 服务 器 


列 orto: HStore: 列 族 B 


woe R 有 We [= . 
StoreFile StoreFile 上 storeFile 天 HRegion HRegion 
(HFile) (HFile) (HFile) … 





HDFS 客户 端 HDFS 客户 端 HDFS 客户 端 


数据 节点 1 


图 5-5 ”HBase 的 整体 架构 ， 以 HDFS 为 基础 ， 通 过 HRegion 构 成 列 式 存储 











上 述 主要 模块 之 间 的 关系 如 图 5-5 所 示 。HBase 的 列 式 存储 设计 ， 为 灵活 的 表 结 构 提供 了 基础 ， 在 实际 应 用 








中 修改 列 族 的 定义 是 很 常见 的 。 对 于 新 的 业务 需求 ， 不 断 增 加 列 簇 或 限定 符 也 是 不 错 的 选择 ， 














“看 来 HBase 的 宽 表 模 式 ， 既 可 以 节省 关系 型 数据 库 中 的 连接 操作 或 存储 空间 ， 同 时 还 能 将 不 同 schema 的 数据 进行 混合 ， 包 括 我 们 公司 的 促销 和 团购 商品 数据 。” 














“你 的 理解 完全 正确 ， 可 以 通过 HBase 进 行 异 构 数据 的 整合 ， 而 且 还 不 用 担心 水 平 的 扩展 性 ”。 

















5.3 ”结合 HBase 和 搜索 引擎 


Qualifier) 可 以 在 需要 的 时 候 再 添加 。 例 如 ， 最 开始 仅仅 是 处 理 普 通商 品 ， 这 时 只 需要 设置 商品 名 称 、 导 购 


入 团 





由 于 HBase 并 没有 严格 的 schema 定 义 ， 因 此 对 于 集成 异 构 的 数据 源 而 言 非常 灵活 和 高 效 。 在 设计 HBase 的 宽 表 之 初 ， 我 们 只 需 





旨 定 列 族 (Column Family) 即 可 ， 具 体 的 列 限定 符 (Column 
属性 、 卖 家 信息 等 列 的 限定 符 即 可 。 如 果 哪 天 某 个 商品 突然 被 选 为 团购 商品 ， 那 么 可 以 动态 地 加 





























购 价 格 、 团 购 数量 、 开 始 和 结束 时 间 等 列 的 限定 符 。 如 果 该 商品 的 团购 结束 了 ， 则 可 以 再 次 动态 地 删除 这 些 团购 信息 ， 对 其 他 商品 完全 没有 影响 。 





基于 这 些 ， 小 明 提 出 了 大 致 的 架构 ， 如 图 5-6 所 示 。 






em MySQL 数据 库 


富 @Y (存放 商品 和 商 ' | | : Ea IKAnalyzer 
铺 的 原始 数据 ) “WW, :| 
， es ! 数据 更 新 : 


中 文 分 词 


数据 集成 


! RR 
em MySQL 数据 库 eg 方 点 nn 
三 @ (存放 促销 活动 


的 原始 数据 ) 数据 集成 ee : 


Ge MySQL 数据 库 
三 Gy (存放 团购 的 
原始 数据 ) 
查询 请 求 


查询 结果 





前 端 应 用 








图 5-6 ”引入 HBase 模 块 的 搜索 架构 





这 里 以 Solr 为 例 ，DIH 模 块 被 HBase 集 群 取而代之 ， 因 此 缺失 了 将 数据 直接 导入 Solr 这 个 便捷 的 功能 ， 这 使 得 从 多 个 关系 数据 库 导入 数据 到 HBase， 以 及 Solr 读 取 HBase 的 数据 进行 索引 这 两 个 步骤 都 需 
要 进行 额外 的 编程 。 不 过 ， 换 来 的 是 灵活 的 异 构 数据 源 集成 。 另 外 ， 相 比 DIH， 这 种 架构 还 有 两 个 明显 的 优势 ， 那 就 是 提升 了 整体 的 更 新 速度 ， 并 且 可 利用 HBase 构 建 一 层 缓冲 。 






































“ 提升 更 新 速度 : DIH 中 的 SQL 可 能 使 用 了 连接 (Join) 操作 ， 只 要 涉及 的 数据 量 得 到 增 大 ， 势 必 就 会 执行 缓慢 ， 这 就 导致 了 最 终 的 更 新 流程 变 长 ， 从 时 间 上 看 甚至 是 指数 级 的 增加 。 如 果 是 采用 
HBase， 就 可 以 分 批 次 将 更 新 字段 逐步 写 入 HBase， 这 样 就 能 取消 关系 型 数据 库 中 的 连接 操作 ， 大 大 提升 效率 。 如 果 对 索引 更 新 的 实时 性 有 更 高 的 要 求 ， 还 可 以 考虑 引入 Apache Kafka 的 消息 中 间 件 ， 具 体 的 用 
法 可 以 参考 本 书 第 11 章 的 相关 内 容 。 








“ 构建 数据 缓冲 : 如 果 是 DIH 直 接 将 数据 导入 Solf， 那 么 每 当 MySQL 数 据 库 中 的 数据 发 生 了 变化 ，DIH 的 增 量 更 新 就 会 修改 Solr 里 的 数据 ， 当 这 个 更 新 量 达到 足够 大 的 规模 时 ， 则 会 导致 Solr 系 统 进 行 频繁 
的 磁盘 写 入 操作 ， 这 一 定 会 影响 Solr 系 统 的 读 取 性 能 ， 最 后 使 得 前 端 应 用 的 请 求 响应 速度 降低 ， 增 加 了 高 并 发 的 可 能 性 ， 严 重 的 情况 下 甚至 会 造成 系统 崩溃 。 若 要 在 这 种 情况 下 进行 优化 ， 就 需要 增加 Solr 的 
集群 节点 ， 而 这 对 于 用 户 查 询 量 不 高 的 情况 而 言 就 是 一 种 浪费 。 如 果 是 采用 HBase， 那 么 频繁 的 数据 更 新 就 会 写 入 HBase， 只 要 我 们 控制 好 Solr 同 步 HBase 数 据 的 节奏 ,那么 最 差 的 情况 就 是 HBase 系 统 崩 
溃 ，Solr 没 有 及 时 读 取 到 最 新 的 数据 ， 但 是 仍然 可 以 对 前 端 提供 正常 的 搜索 服务 ， 可 以 认为 这 是 一 种 服务 自动 降级 。 只 是 在 这 种 情况 下 ， 我 们 就 要 开始 关注 HBase 集 群 的 扩容 了 。 


5.4.1 ”实验 环境 设置 

















在 这 部 分 的 实践 环节 中 ， 我 们 会 继续 第 4 章 的 案例 ， 在 搜索 引擎 中 为 之 前 的 18 类 共 28000 多 件 商品 增加 促销 和 团购 信息 。 每 条 商品 记录 除了 之 前 的 商品 ID、 商 品 标题 、 分 类 ID 和 分 类 名 称 字 段 之 外 ， 还 包 
括 了 促销 信息 字段 promotion_info 或 团购 折扣 group_discount 等 多 个 字段 。 我 们 将 实验 从 NoSQL 数 据 库 读 取 这 些 字段 ， 并 将 使 用 HBase 1.3.0 版 。 软 件 运 行 环境 依然 是 java 语言 (JDK 1.8 或 JRE 1.8) ， 以 
及 Eclipse 的 IDE 环 境 (Neon.1a Release (4.6.1) ) 。 用 于 集群 的 硬件 仍然 是 MacBookPro2012、MacBookPro2013 和 iMac2015， 操 作 系统 是 Mac OS X。 局 域 网 内 的 IP 分 配 如 下 : 









































iMac2015 192.168.1.48 
MacBookPro2013 192.168.1.28 
MacBookPro2012 192.168.1.78 


和 之 前 一 样 ， 请 根据 自己 的 软 硬 件 环 境 和 需要 ， 合 理 地 调整 环境 变量 和 目录 等 信息 。 





5.4.2 ”HBase 的 部 署 


1.HBase 的 安装 











由 于 HBase 是 基于 HDFS 的 ， 按 照 第 1 章 的 简介 配置 并 启动 Hadoop 集 群 。 成 功 之 后 ， 我 们 来 部 署 HBase。 你 可 以 在 http://hbase.apache.org 下 载 HBase。 
解压 之 后 ， 设 置 环境 变量 : 


export HBASE HOME=/Users/huangsean/Coding/hbase-1.3.0 


export PATH=$PATH:$HBASE HOME/bin 








进入 /Users/huangsean/Coding/hbase-1.3.0/conf， 修 改 配 置 文件 hadoop-env.sh， 在 其 中 设置 : 





export JAVA HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0 112.jdk/Contents/Home 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
export HBASE MANAGES ZK=true 























这 里 的 HBASE_MANAGES ZK=true 表 示 使 用 HBase 自 带 的 ZooKeeper， 如 果 要 自 建 Z00-Keeper 集 群 ， 请 参见 第 11 章 。 然 后 编辑 /Users/huangsean/Coding/hbase-1.3.0/conf/hbase-site.xml: 





<configuration> 

<property> 
<name>hbase.rootdir</name> 
<value>hdfs://iMac2015:9000/hbase</value> 

</property> 

<property> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 

</property> 

<property> 
<name>hbase .zookeeper .quorum</name> 
<value>192.168.1.48:2181</value> 

</property> 

<property> 
<name>hbase.master .port</name> 
<value>16000</value> 

</property> 

<property> 
<name>hbase .master.info.port</name> 
<value>16010</value> 

</property> 

</configuration> 

















其 中 ，hbase.rootdir 指 定 hdfs: WiMac2015: 9000/hbase， 表 示 在 已 经 启动 的 HDFS 服 务 上 新 建 hbase 的 目录 ， 这 里 的 IP (主机 ) 和 端口 需要 和 已 启动 的 Hadoop 的 配置 相 一 致 。 而 hbase.zoo- 
keeper.quorum 指 定 了 ZooKeeper 的 IP (主机 ) 和 端口 ， 由 于 使 用 的 是 HBase 自 带 的 Zoo-Keeper， 所 以 使 用 了 默认 端口 2181。 通 过 hbase.master.info.port 端 口 ， 你 可 以 访问 HBase 的 信息 界面 。 





















































最 后 一 个 重要 的 配置 文件 是 同一 个 目录 下 的 regionservers， 我 们 希望 使 用 全 部 三 台 机 器 ， 所 以 内 容 如 下 : 








iMac2015 
MacBookPro2013 
MacBookPro2012 





所 有 HBase 的 配置 文件 样 例 可 以 参考 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/hbase/conf 




















将 配置 好 的 HBase 同 步 到 其 他 两 台 机 器 ， 然 后 对 其 中 一 台 (也 是 HMaster) 使 用 start-hbase.sh 启 动 hbase， 这 里 选择 iMac2015: 





[huangsean@iMac2015:/Users/huangsean/Coding/hbase-1.3.0]start-hbase.sh 

iMac2015: starting zookeeper, logging to /Users/huangsean/Coding/hbase-1.3.0/bin/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0F 
starting master, logging to /Users/huangsean/Coding/hbase-1.3.0/lo0gs/hbase-huangsean-master-iMac2015.out 

Java HotSpot (TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0 

Java HotSpot (TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0 

iMac2015: starting regionserver, logging to /Users/huangsean/Coding/hbase-1.3.0/bin/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351 
MacBookPro2013: starting regionserver, logging to /Users/huangsean/Coding/hbase-1.3.0/bin/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressec 
MacBookPro2012: starting regionserver, logging to /Users/huangsean/Coding/hbase-1.3.0/bin/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressec 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 











出 





5-7 所 示 。 

















从 日 志 中 可 以 看 出 ，HMaster 在 iMac2015 上 启动 了 ， 而 HRegionServer 分 别 在 MacBook-Pro2013 和 MacBookPro2012 上 启动 。 启 动 成 功 后 ， 可 以 在 HDFS 中 找到 hbase 的 目录 ， 如 

















此 外 ， 打 开 http:Wimac2015: 16010/master-status， 你 将 看 到 类 似 图 5-8 的 截屏 ， 显 示 HBase 集 群 状态 正常 。 为 保证 集群 的 可 靠 性 ， 可 以 在 其 他 节点 上 启动 HMaster: 





hbase-daemon.sh start master 


2.HBase 基 础 

















下 面 ， 使 用 hbase shell 命 令 启动 HBase shell, 测试 HBase 上 基本 的 写 和 读 功能 。 首 先 通过 list 查 看 目前 有 哪些 表 ， 结 果 为 空 : 








[huangsean@iMac2015:/Users/huangsean/Coding/hbase-1.3.0]hbase shell 

2017-02-04 23:34:26,155 WARN [main] util.NativeCodeLoader: Unable to load native-hadoop library for your platformhttp://www.hzcourse.com/resource/readBook?path=/openresources/ 
SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/Users/huangsean/Coding/hbase-1.3.0/1ib/slf4j-10g4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/Users/huangsean/Coding/hadoop-2.7.3/share/hadoop/common/1ib/slf4j-10g4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.html#multiple bindings for an explanation. 

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 

Type "exit<RETURN>" to leave the HBase Shell 

Version 1.3.0, re359c76e8d9fd0d67396456f92bcbad9ecd7a710, Tue Jan 3 05:31:38 MSK 2017 


hbase (main) :001:0> list 
TABLE 
0 row(s) in 0.0440 seconds 





Hadoop Oveview Datanodes Snapshot StartupProgress Uitilities 


Browse Directory 


Group Last Modified Name 
supergroup 2/4/2017, 11:21:19 PM 0B ‘tmp 

supergroup 2/4/2017, 11:21:24 PM 0B MasterProcWALs 
supergroup 2/4/2017, 11:21:58 PM 0B WALs 
supergroup 2/4/2017, 10:18:45 PM 0B data 

Supergroup 2/4/2017, 10:18:33 PM 119.02 MB hbase.id 
supergroup 2/4/2017, 10:18:33 PM 119.02 MB hbase.version 


supergroup 2/4/2017, 11:22:24 PM 0B oldWALs 














5-7 HDFS 中 显示 hbase 目 录 创 建成 功 





然后 创建 一 张 表格 : 





hbase (main) :002:0> create 'listing hbase', 'datafields' 
0 row(s) in 2.3550 seconds 


=> Hbase::Table -~ listing hbase 
hbase (main) :003:0> list 

TABLE 

listing hbase 


1 row(s) in 0.0090 seconds 


=> ["listing hbase"] 

hbase (main) :004:0> describe 'listing hbase' 

Table listing hbase is ENABLED 

listing hbase 

COLUMN FAMILIES DESCRIPTION 

{NAME => 'datafields', BLOOMFILTER => 'ROW', VERSIONS => '1', IN MEMORY => 'false', KEEP DELETED CELLS => 'FALSE', DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION 
ONE', MIN VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION SCOPE => '!0'] 加 加 

1 row(s) in 1.0850 seconds 





PAC HH 
Home Table Details Procedures Local Logs Metrics Dump HBase Configuration 





Master ivac2015 
Region Servers 


ES veroy rome soone Compactions 


ServerName Start time 








imac2015,16020,1486279263771 Sat Feb 04 23:21:03 PST 2017 





macbookpro2012,16020,1486279271156 Sat Feb 04 23:21:11 PST 2017 





macbookpro2013,16020,1486279264436 Sat Feb 04 23:21:04 PST 2017 
Total:3 





Backup Masters 


ServerName 











图 5-8 HBase 集 群 部 署 成 功 


我 们 发 现 ，HBase 中 创建 表格 的 create 语 法 非常 简 和 


性 








的 基本 信息 。 接 下 来 ， 可 以 通过 put 命 令 插 入 一 个 商品 的 数据 : 


， 由 于 没有 严格 的 schema 定 























义 ， 只 需要 提供 表 名 listing_hbase 和 列 族 datafields 即 可 ， 无 须 提供 : 


体 的 字段 名 和 类 型 ， 而 describe 命 令 会 


显示 表格 





hbase (main) 
0 row(s) in 


hbase (main) 
0 row(s) in 


hbase (main) 
0 row(s) in 


:005:0> Put 'listing hbase', 'testid 1', 'datafields: 
1.0930 seconds 
:006:0> Put 'listing hbase', 'testid 1', 'datafields: 
0.0170 seconds 
:010:0> Put 'listing hbase', 'testid 1', 'datafields 
0.0180 seconds 


:Category name', 


listing title', 'testtitle 1° 


category id', 


'testcategoryid 1" 


"testcategoryname 1" 








了 团购 





其 中 testid_1 相 当 于 商品 
的 折扣 group_discount、 


ID, testtitle 1、 





团购 











testcategoryid_1 和 testcategoryname_1 分 别 是 商品 的 名 称 、 分 类 ID 和 分 类 名 称 。 然 后 插入 第 2 个 商品 的 数据 ， 不 过 第 2 个 商品 是 | 
购 开始 group_start 和 结束 时 间 group_end， 代 码 如 下 : 








团购 商品 ， 比 第 1 个 商品 多 出 





























hbase (main) :011:0> Put 'listing hbase', 'testid 2', 'datafields:listing title', 'testtitle 2' 

0 row(s) in 1.0190 seconds 

hbase (main) :012:0> Put 'listing hbase', 'testid 2', 'datafields:category id', 'testcategoryid 2' 

0 row(s) in 0.0060 seconds 

hbase (main) :013:0> Put 'listing hbase', 'testid 2', 'datafields:category name', 'testcategoryname 2' 

0 row(s) in 0.0160 seconds 

hbase (main) :014:0> Put 'listing hbase', 'testid 2', 'datafields:group discount', '0.85"' 

0 row(s) in 0.0060 seconds 

hbase (main) :015:0> put 'listing hbase', 'testid 2', 'datafields:group start', 12017/02/05" 

0 row(s) in 0.0170 seconds 

hbase (main) :016:0> Put 'listing hbase', 'testid 2', 'datafields:group end', '2017/02/12' 

0 row(s) in 0.0120 seconds 

最 后 ， 用 scan 命 令 查看 插入 的 信息 : 

hbase (main) :017:0> scan "1isting_hbase' 

ROW COLUMN+CELL 

teatid 1 column=datafields:category id, timestamp=1486280887812, value=testcategoryid 1 
testid 1 column=datafields:category name, timestamp=1486280876116, value=testcategoryname 1 
testid 1 column=datafields:1isting title, timestamp=1486280801770, value=testtitle 1 
testid 2 column=datafields:category id, timestamp=1486281378724, value=testcategoryid 2 
testid 2 column=datafields:category name, timestamp=1486281398504, value=testcategoryname 2 
testid 2 column=datafields:group discount, timestamp=1486281498386, value=0.85 

testid 2 column=datafields:group end, timestamp=1486281617164, value=2017/02/12 

testid 2 column=datafields:group start, timestamp=1486281517225, value=2017/02/05 
testid 2 column=datafields:1listing title, timestamp=1486281310612, value=testtitle 2 


2 row(s) in 


0.0330 seconds 





可 以 看 出 testid_1 和 testid_2 都 已 经 存储 在 HBase 之 中 。 不 过 ， 每 一 行 都 是 某 条 记录 中 的 某 个 字 | 








3. 使 有 








导入 数据 








Sqoop: 














由 于 目前 的 商品 数据 在 MySQL 中 ， 























Apache Sqoop 这 个 工 


http://sqoop.apache.org 


由 于 Sqoop 2 


























此 我 们 还 需要 将 其 导入 HBase。 
， 其 英文 字面 的 意思 是 SQL 和 Hadoop 的 结合 。 























前 还 不 支持 从 MySQL 到 HBase 的 直 





导入 ， 本 书 将 使 


























除了 使 用 Java 访 问 HBase 的 PUT API 之 外 ， 如 果 业 务 罗 辑 并 不 复杂 ， 也 可 以 通过 一 
顾名思义 ， 就 是 将 SQL 数据 库 中 的 数据 快速 地 导入 Hadoop 环 境 ， 或 者 


Sqoop 1, 


这 点 和 关系 型 数据 库 中 的 每 一 行 就 是 一 条 完整 的 记录 有 所 不 同 。 








些 辅助 工具 











来 达到 这 个 目的 。 这 里 























反之 。 通 过 如 下 链接 ， 下 载 并 解压 Sqoop: 

















版 本 号 是 1.4.6， 在 使 














它 之 前 请 确保 Hadoop 和 HBase 集 群 已 经 正常 启动 。 设 








于 Sqoop 的 环境 变量 : 





export SQOOP HOME=/Users/huangsean/Coding/sqoop-1.4.6.bin hadoop-2.0.4-alpha 
export PATH= -SPATH: $SQOOP_ HOME/bin 





首先 ， 











如 果 之 前 





没有 下 载 这 个 Jar 包 ， 可 以 在 这 里 找到 : 


测试 Sqoop 和 MySQL 直 接 的 连接 。 确 保 将 MySQL 的 连接 驱动 Jar 包 mysql-conn-ectorjava-5.1.40-bin.jar 放 入 /Users/huangsean/Coding/sqoop-1.4.6.bin_hadoop-2.0.4-alpha/lib/ 目 录 中 。 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Solr/solr-webapp/webapp/WEB-INF/lib/mysql-connector-java-5.1.40-bin.jar 

















然后 使 





下 述 命 


分 


他 令 : 





[huangsean@iMac2015:/Users/huangsean/Coding] sqoop list-tables --connect jdbc:my 
sql://iMac2015:3306/sys --username root --password yourownpassword 





如 果 连 接 数 据 库 成 功 ， 那 么 你 就 可 以 看 到 Sqoop 列 出 了 sys 数 





居 库 中 的 表格 。 之 后 ， 在 HBase shell 中 创建 新 表 listing_segmented_shuffled_hbase: 





listing segmented shuffled hbase: 
hbase (main) :003:0> create 'listing segmented shuffled inhbase', 
0 row(s) in 0.4220 seconds 


=> Hbase: 


:Table - Listing segmented shuffled inhbase 


hbase (main) :004:0> describe 'listing segmented shuffled inhbase' 
Table listing segmented shuffled inhbase is ENABLED 

listing segmented shuffled inhbase 
COLUMN FAMILIES DESCRIPTION 


{NAME, => 
IZE => 


'datafields', 
"65536, 


BLOOMFILTER => 'ROW', 
REPLICATION SCOPE => '0'} 


1 row(s) in 0.0650 seconds 


VERSIONS => '1', IN MEMORY => 'false', KEEP DELETED CELLS => 'FALSE', 


'datafields' 


DATA BLOCK ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION 





现在 ,我 们 就 可 以 导入 数据 了 : 





[huangsean@iMac2015:/Users/huangsean/Coding] sqoop import -append --connect jdbc:mysql://iMac2015:3306/sys --username root --password yourownpassword --table listing segmented s 








该 命令 使 














了 MySQL 的 连接 设置 ， 并 指定 了 向 名 为 “listing_segmented_shuffled_hbase” 的 HBasel 
Sqoop 启 动 了 Hadoop 的 MapReduce 作 业 ， 并 向 HBase 的 表格 listing_hbase 中 写 入 数据 。 最 后 你 可 以 使 


hbase (main) :013:0> scan 'listing segmented shuffled inhbase' 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/.. 

column=datafields:category id, timestamp=1486343413755, value= 8 
column=datafields:category namey timestamp=1486343413755, value=\xE5\x9D\x9A\xE6\x9E\x9C 
column=datafields:listing title, timestamp=1486343413755, value=\xE5\x8F\xA3\xE6\xBO\xB4 \xE5\xA8\x83 \xE5\xBC\x80\xE5\x8F\xA3 \ 


9998 
9998 
9998 

















scan 命 令 ， 检 查 数 据 是 否 成 功 写 入 : 


的 表格 中 写 入 ， 列 族 为 datafields， 行 键 为 MySQL 表 中 的 listing_id 字 段 。 在 执行 过 程 中 你 会 看 到 


9999 
S905 
999 


XE5\xB7\xB4 \xE6\x97\xA6 \xE6\x9C\xA8 168g 4\xE8\xA2\x8B \xEA\xBC\x91\xE9\x97\xB2 \xE9\x9B\xB6\xE9\xA3\x9F \xE5\x9D\x9A\xE6\x9F\ 
X9C \xET\x82\x92\xE8\xBA\xA7 \xE7T\x89\xB9\xEA\xBA\xA7 \xE5\xA5\xB6 \xE9\xA6\x99\xE5\x91\xB3 \xE6\x9D\x8F\xE4\xBB\x81] \xE6\x89\x8 
1 \xE6\xAl\x83\xE4\xBB\x81 

column=datafields:category id, timestamp=1486343413755, value=8 

column=datafields:category name, timestamp=1486343413755, value=\xE5\x9D\x9A\xE6\x9E\x9C 

column=datafieldqs:1isting title, timestamp=1486343413755, value=\xE5\xBO\x8F \xE5\xBC\xA5\xE5\x8B\x92 xiaomile \xE5\xBC\x80\xE5\ 
XBF\x83\xE6\x9E\x9C \xEA\xBC\x91\xE9\x97\xB2 \xE9\x9B\xB6\xE9\xA3\x9F \xE5\x9D\x9A\xE6\x9E\x9C \xET\x82\x92\xE8\xBA\xA7 \xE6\x97 
\xAO \xE6\xBC\x82\xE7\x99\xBD \xE8\xB5\xAO\xE5\x93\x81 \xE5\x8B\xBF \xE6\x8B\x8D 19 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 


28708 row(s) in 15.7290 seconds 





在 导入 数据 之 前 ,我 们 并 未 定义 HBase 表 格 的 schema 和 各 个 字段 ， 但 是 现在 28000 多 条 记录 都 已 经 被 成 功 地 插入 该 表 了 。 


5.4.3 ”HBase 和 搜索 引擎 的 集成 


一 旦 数据 进入 了 HBase， 我 们 就 需要 考虑 如 何 从 HBase 中 读 取 数据 并 写 入 搜索 引擎 的 索引 之 中 。 下 面 我 们 给 出 一 些 基本 的 示例 性 代码 。 首 先 ， 在 pom.xml 中 添加 HBase 相 关 的 依赖 jar 包 : 











<!-- https://mvnrepository.com/artifact/org.apache.hbase/hbase-client --> 
<dependency> 
<groupId>org.apache.hbase</groupId> 
<artifactId>hbase-client</artifactId> 
<version>1.3.0</version> 
</dependency> 








然后 修改 ListingDocument 类 ， 添 加 几 个 促销 和 团购 可 能 会 用 到 的 字段 ， 包 括 promotion_info 和 group_discount 等 : 

















public class ListingDocument { 


// 必 备 的 基础 信息 

Private long listing id7 
private String listing title; 
private long category id; 
private String category name; 


// 以 下 是 可 选 的 动态 信息 

Private String promotion info = null; 
private String promotion startdate = null; 
private String promotion enddate = null; 
Private double group discount = -1.0; 
Private String group startdate = null; 
private String group enddate = null; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 





资源 的 初始 化 和 释放 ， 与 之 前 的 搜索 引擎 设计 类 似 ; 





// 基本 配置 和 连接 

private static Configuration conf = null; 
Private static Connection conn = null; 
Private static HTable htable = null; 


//_HBase 连 接 的 相关 配置 和 初始 化 


public static synchronized void init() { 


if (conf == null || conn == null) { 
conf = HBaseConfiguration.create(); 
conf. set ("hbase.zookeeper.property.clientPort", "2181"); 


conf. set ("hbase.zookeeper.quorum", " 192.168.1.48:2181"); 
conf.set ("hbase.master", "16000"); 


a 
conn = ConnectionFactory.createConnection (conf); 
} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 


i 


// 释放 资源 
public static void cleanup() { 
if (conn != null) { 
和 


conn.close(); 
conn = null; 
} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 
conn = null; 


} 
if (conf != null) { 


conf.clear (); 
conf = null; 





我 们 实现 了 两 个 主要 的 函数 insertData 和 scanUpdatedData， 分 别 测试 向 HBase 中 写 入 数 所 





居 ， 以 及 从 HBase 中 读 取 数据 : 





public static void insertData (List<ListingDocument> lds, String table) { 
try { 


// 连接 指定 的 HBase 表 格 
htable = (HTable) conn.getTable (TableName.valueOf (table)); 


List<Put> puts = new ArrayList<>(); 


for (ListingDocument 1d : 1ds) { // 使 用 HBase 的 PUT API， 每 个 文档 生成 一 个 PUT 


// 添加 必要 的 商品 基础 信息 
Put Put = new Put (String.valueOf (ld.getListing id() ) .getBytes () ) 7 
put.addColumn ("datafields" .getBytes (), 
"listing title".getBytes () ， 
ld.getListing title() .getBytes()); 
put.addColumn ("datafields" .getBytes (), 
"category_id" .getBytes (), 
String.valueOf (ld.getCategory id()) .getBytes () ) 7 
put.addColumn ("datafields" .getBytes () ， 
"category_name" .getBytes () ， 
ld.getCategory name () .getBytes () ) 7 


// 如 果 存 在 ， 则 添加 促销 的 信息 
if (ld.getPromotion info() != null) { 
put.addColumn ("datafields" .getBytes (), 
"promotion info".getBytes(), 
ld.getPromotion info() .getBytes()); 
put.addColumn ("datafields" .getBytes (), 


"promotion _ startdate" .getBytes () ， 


1d.getPromotion startdate () .getBytes () ) 7 
put.addColumn ("datafields" .getBytes () ， 
"promotion _ enddqate" .getBytes () ， 
ld.getPromotion enddate() .getBytes () ) 7 
} 


// 如 果 存在 ， 则 添加 团购 的 信息 
if (ld.getGroup discount () 让 
put.addColumn ("datafields" .getBytes (), 
"group_ discount" .getBytes ()， 
String.valueOf (ld.getGroup discount () ) .getBytes () ) 7 
put.addColumn ("datafields" .getBytes () ， 
"group_startdate" .getBytes ()， 
1d.getGrouP_startdate () .getBytes () ) 7 
put.addColumn ("datafields" .getBytes () ， 
"group_enddate" .getBytes () ， 
ld.getGroup enddate () .getBytes () ) 7 

















} 


puts.add (put); 
} 


htable.put (puts); 


htable.close (); 
htable = null; 


} catch (Exception e) { 
// TODO: handle exception 
e.printstackTrace (); 


if (htable != null) { 

try { 
htable.close (); 

} catch (IOException el) { 
// TODO Auto-generated catch block 
el.PrintStackTrace (); 
htable = null; 

} 

htable = null; 





在 main 函 数 中 ， 测 试 insertData 的 代码 如 下 : 





ad 


Lis 
for 


} 


HBa: 


向 HBase 中 写 入 测试 数据 


Random rand = new Random(System.currentTimeMillis()); 


t<ListingDocument> documents = new ArrayList<>() 
(int i = 0; i < 100; i++) { 
ListingDocument 1d = new ListingDocument ( 
2000 + (i + 1)， "hbase 数 据 插入 测试 标题 " + (i + 1)， 
200000 + (i + 1)， "hbase 数 据 插入 测试 类 目 " + (i + 1)) 7 


int number = rand.nextInt (10); 


// 按照 20% 的 概率 ， 随 机 生成 促销 商品 
if (number % 5 == 0) { 


// 按照 10% 的 概率 ， 随 机 生成 促销 类 型 A 的 商品 
if (number % 2 0) { 
1d.setPromotion info(" 买 200 减 50"); 
ld.setPromotion startdate("2017-07-28"); 
1d.setPromotion enddate ("2017-08-28"); 
} else { // 按照 10% 的 概率 ， 随 机 生成 促销 类 型 B 的 商品 
1d.setPromotion info(" 买 三 赠 一 "); 
ld.setPromotion startdate("2017-08-01"); 
1d.setPromotion enddate ("2017-08-18"); 














} 


} else if (number $ 10 =— 1) { // 按照 10% 的 概率 ， 随 机 生成 团购 的 商品 
ld.setGroup discount (0.75) 7 
1d.setGroup startdate ("2017-10-05"); 
1d.setGroup enddate ("2017-10-12"); 














} 


documents.add (1d) 7 


se.insertData (documents, "listing segmented shuffled inhbase"); 


// 慎 用 ， 每 次 会 写 入 不 同 的 数据 





执行 后 ， 通 过 HBase 的 shell 查 看 表格 listing_segmented_shuffled_inhbase， 你 将 看 到 类 似 下 





可 
山 
条 














hba. 
ROW 
20 
20 
20 
20 
20 
20 
20 
20 
20 
20 
20 
20 





se (main) :029:0> scan 'listing segmented shuffled inhbase'" 

COLUMN+CELL 
01 column=datafields: 
01 column=datafields: 
01 
01 
01 
01 
02 
02 
02 column=datafields: 
03 column=datafields: 
03 column=datafields: 
03 column=datafields 


:listing title, timestamp= 


category id, timestamp=1486422394764, value=200001 
category name, timestamp=1486422394764, value=hbase\xE6\x95\xBO\xE6\x8D\xAFE\xE6\x8F\x92\xE5\x85\x 


:listing title, timestamp=1486422394764, value=hbase\xE6\x95\xBO\xE6\x8D\xAE\xE6\x8F\x92\xE5\x85\x 
:promotion endgate, timestamp=1486422394764, value=2017-08-18 

:promotion info, timestamp=1486422394764, value=\xE6\xBB\xAl\xE4\xB8\x89\xE8\xB5\xAO0\xE4\xB8\x80 
:Promotion startdatev timestamp=1486422394764，value=2017-08-01 

:category id, timestamp=1486422394764, value=200002 

:category name, timestamp=1486422394764, value=hbase\xE6\x95\xBO\xE6\x8D\xAE\xE6\x8F\x92\xE5\x85\x 


listing 让 timestamp=1486422394764, value=hbase\xE6\x95\xBO\xE6\x8D\xAE\xE6\x8F\x92\xE5\x85\x 
category id, timestamp=1486422394764, value=200003 

category name, timestamp=1486422394764, value=hbase\xE6\x95\xBO\xE6\x8D\xAE\xE6\x8F\x92\xE5\x85\x 
86422394764, value=hbase\xE6\x95\xBO\xE6\x8D\xAE\xE6\x8F\x92\xE5\x85\x 





http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 


























从 前 3 个 结果 可 以 看 出 ， 只 有 行 键 为 2001 的 商品 才 有 促销 的 信息 (当然 这 是 随机 的 结果 ) 。 再 使 用 下 述 的 scanUpdatedData 函 数 ， 检 索 出 新 增 的 商品 : 





天 
Pub 
amp 


给 定时 间 惟 timestamp， 找 出 这 个 时 间 鹤 之 后 修改 的 所 有 数据 
lic static List<ListingDocument> scanUpdatedData (String table, long timest 
) { 


List<ListingDocument> lds = new ArrayList<>(); 


try { 
htable = (HTable) conn.getTable (TableName.valueOf (table)); 
ResultScanner rscan = null; 


// 设置 时 间 截 
Scan scanWithFilter = new Scan(); 
scanWithFilter.setTimeRange (timestamp, System.currentTimeMillis()); 


// 使 用 HBase 的 Scan 机 制 
rscan = htable.getScanner (scanWithFilter); 
for (Result res : rscan) { 


ListingDocument 1d = new ListingDocument (); 
ld.setListing id(Long.parseLong (new String (res.getRow()))); 


// 读 取 各 个 字段 ， 组 装 ListingDocument。 之 前 HBase 简 介 中 讲述 了 cel1 这 种 结构 。 
for (Cell cell : res.rawCells()) { 
String columFamily = new String (CellUtil.cloneFamily (cell)); 
if ("datafields".equalsIgnoreCase (columnFamily)) { 


String qualifier new String (CellUtil.cloneQualifier (cell)); 

if ("listing title".equalsIgnoreCase (qualifier)) { 
ld.setListing title (new String (CellUtil.cloneValue (cell))); 

} else if ("category id".equalsIgnoreCase (qualifier)) { 
1d.setCategory id (Long.ParseLong (new String (CellUtil. 
cloneValue (celI) ) ) ) 7 

} else if ("category _ name" .equalsIgnoreCase (qualifier)) { 

.setCategory name (new String (CellUtil.cloneValue (cell))); 

if ("promotion info" .equalsIgnoreCase (qualifier)) { 

.setPromotion info (new String (CellUtil.cloneValue (cell))); 

人 ("promotion startdate".equalsIgnoreCase (qualifier)) { 

.SetPromotion startdate (new String (CellUtil. 
cloneValue (cel11))); 

} else if ("promotion enddate".equalsIgnoreCase (qualifier)) { 
1d. setPromotion enddate (new String (CellUtil.cloneValue 
(cell))); 

} else if ("group discount".equalsIgnoreCase (qualifier)) { 
1d.setGroup discount (Double.parseDouble (new String 
(CellUtil.cloneValue (cell)))); 

} else if ("group startdate".equalsIgnoreCase (qualifier)) { 

.SetGroup startdate (new String (CellUtil.cloneValue (cell))); 

二 ("group enddate" .equalsIgnoreCase (qualifier)) 

‘SetGroup enddate (new String (CellUtil.cloneValue (cell))); 


i 


ldqs.add(19) 7 


System.out .Println(1dq.toString() ) 7 // 用 于 检阅 的 输出 


htable.close(); 

} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace () 7 


return lds; 




















其 主 





原理 是 利 








HBase 的 scan 命 令 和 时 间 戳 ， 获 取 全 量 和 增 量 的 数据 更 新 。 在 main 函 数 中 使 用 如 下 代码 进行 实验 ， 先 找 出 近 1 小 时 以 内 更 新 的 数据 ， 然 后 写 入 第 4 章 所 构建 的 搜索 引 警 : 





// 查找 刚刚 插入 的 数据 
long timestamp = System.CurrentTimeMillis() - 3600 * 1000; 
// 查找 1 小 时 内 更 新 的 数据 


HBase.scanUpdatedData ("listing segmented shuffled inhbase", timestamp); 


List<ListingDocument> documentsToUpdate 


// 写 入 搜索 引擎 

SearchEngineTest.init()7 
SearchEngineTest.index (documentsToUpdate); 
SearchFngineTest .cleanup (); 


// 索引 新 文档 





执行 后 ， 你 将 看 到 类 似 于 图 





5-9 所 示 的 结果 ， 某 些 商品 有 额外 的 促销 或 团购 信息 。 


好 Problems @ Javadoc 区 Declaration 有 YSearch 园 console | 加 Progress 








<terminated> HBase [Java Application] /Library/Java/JavaVirtualMachines/jdk1.8.0_92.jdk/Contents/Home/bin/java (Feb 6, 2017, 5:01:25 PM) 





10g4j:WARN No appenders could be found for logger (org.apache.hadoop.security.Groups). 
lo0g4j:WARN Please initialize the 10g4j system properly. 

1og4j :WARN See http://logging.apache.org/10g4j/1.2/faq.html#noconfig for more info. 
ListingDocument [listing_id = 2001，listing_title = hbase 数 据 插入 测试 标题 |，category_id 
ListingDocument [listing_id = 2002，listing_title = hbase 数 据 插入 测试 标题 2，category_id 
ListingDocument [listing_id = 2003，listing_title = hbase 数 据 插入 测试 标题 3，category_id 
ListingDocument [listing_id = 2004，listing_title = hbase 数 据 插入 测试 标题 4，category_id 
ListingDocument [listing_id = 2005，listing_title = hbase 数 据 插入 测试 标题 5，category_id 
ListingDocument [listing_id = 2006，listing_title = hbase 数 据 插入 测试 标题 6 ，category_id 
ListingDocument [listing_id = 2007，listing_title = hbase 数 据 插入 测试 标题 7，category_id 
ListingDocument [listing_id = 2008，listing_title = hbase 数 据 插入 测试 标题 8 ，category_id = 
ListingDocument [listing_id = 2009，listing_title = hbase 数 据 插入 测试 标题 9，category_id = 


200001， 
200002， 
200003， 
200004， 
200005， 
200006， 
200007， 
200008， 
200009， 


category_name 
category_name 
category_name 
category_name = 
category_name = 
category_name 
category_name 
category_name 
category_name 


hbase 数 据 插入 测试 类 目 1 ， 
hbase 数 据 插入 测试 类 目 2， 
hbase 数 据 插入 测试 类 目 3 ， 
hbase 数 据 插入 测试 类 目 4， 
hbase 数 据 插入 测试 类 目 5， 
hbase 数 据 插入 测试 类 目 6， 
hbase 数 据 插 入 测试 类 目 7， 
hbase 数 据 插入 测试 类 目 8， 
hbase 数 据 插入 测试 类 目 9， 


dynamic_info 
dynamic_info 
dynamic_info 
dynamic_info 
dynamic_info 
dynamic_i 
dynami 
dynami 
dynamic_info 


ListingDocument [listing_id = 
ListingDocument [listing_id 
ListingDocument [listing_id 
ListingDocument [listing_id 
ListingDocument [listing_id 


2010， 
2011, 
2012， 
2013， 
2014， 


hbase 数 据 插入 测试 标题 10 ， 
hbase 数 据 插入 测试 标题 11 ， 
hbase 数 据 插入 测试 标题 12 ， 
hbase 数 据 插入 测试 标题 13 ， 
hbase 数 据 插入 测试 标题 14 ， 


listing_title 
listing_title 
listing_title 
listing_title 
listing_title 


完整 的 代码 示例 ， 可 以 参见 下 列 项 目 中 的 SearchEngine.Datasource 这 个 包 : 


category_id = 


category_id 
category_id 
category_id 
category_id 


200010， 
200011， 
200012， 
200013， 
200014， 


category_name = 


category_name 
category_name 
category_name 
category_name 


图 5-9 从 HBase 集 群 读 取 数据 成 功 


hbase 数 据 插入 测试 类 目 10，dynamic_info 
hbase 数 据 插入 测试 类 目 11，dynamic_info 
hbase 数 据 插入 测试 类 目 12，dynamic_info 
hbase 数 据 插入 测试 类 目 13，dynamic_info 
hbase 数 据 插入 测试 类 目 14，dynamic_info 





https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/SearchEnginelmplementation 


值得 一 提 的 是 ，Solr 和 Elasticsearch 都 有 很 好 的 特性 与 这 里 的 动态 信息 进行 对 应 。Elasticsearch 在 文档 中 碰 到 一 个 以 前 从 没 见 过 的 字段 时 ， 它 会 利 











加 映射 。 对 于 Solr 而 言 ， 可 以 采 
的 schema.xml， 加 入 如 下 字段 定义 : 











动态 字段 (Dynamic Field) ， 它 也 提供 了 灵活 的 schema， 能 和 HBase 中 的 数据 对 应 起 来 。 例 如 ， 这 里 的 促销 和 
































三 赠 一 :2017-08-012017-08-18 ] 


满 
] 
] 
] 
] 
] 
] 
] 
满 


200 减 50:2017-07-282017-08-28 ] 
=] 

= 满 200 减 50:2017-07-282017-08-28 ] 
= 买 三 赠 一 :2017-08-012017-08-18 ] 
= ] 

= 满 200 减 50:2017-07-282017-08-28 ] 





动态 映射 来 决定 该 字段 的 类 型 ， 并 自动 对 该 字段 添 
团购 信息 ， 并 不 是 每 个 商品 所 必需 的 ， 我 们 可 以 修改 Solr 

















<dynamicField nam 





romotion *" type="string" indexed="true" stored="true"/> 


<dynamicField name="group *" type="string" indexed="true" stored="true"/> 





这 样 ， 如 果 某 个 商品 是 团购 商品 ， 就 可 以 在 添加 Solr 文 档 时 ， 提 供 group 前 缀 开头 的 字段 ， 否 则 就 没有 必要 提供 了 。 


第 6 章 方案 设计 和 技术 选 型 : 查询 分 类 和 搜索 的 整合 


6.1 ”问题 分 析 








近期 ， 

















户 时 常 抱怨 的 另外 一 个 问题 就 是 ， 关 键 词 搜索 的 结果 非常 不 精准 。 搜 索 “ 牛 奶 ”， 很 多 牛奶 巧克力 ， 甚 至 是 牛奶 色 的 连衣裙 都 跑 到 搜索 结果 的 前 排 了 ， 











体验 非常 差 。 但 是 ， 巧 克 力 和 连 衣 





裙 这 些 商 品 标题 里 确实 存在 “牛奶 ”的 字样 ， 如 果 简单 地 抹 去 ， 又 会 导致 搜索 “牛奶 巧克力 ”或 “牛奶 色 连 衣 裙 ”时 无 法 展示 相关 的 商品 ， 这 肯定 也 是 无 法 接受 的 。 据 反馈 ,这 类 搜索 不 精准 的 情况 十 分 普 


人 遍 ， 此 如 ， 搜 索 “ 橄 榄 油 ” 的 时 候 会 返回 热门 的 “橄榄 油 发 膜 ”， 或 者 是 “橄榄 油 护 手 霜 ”; 搜索 “手机 ”的 时 候 会 返回 热门 的 “手机 壳 ” 


和 “手机 贴膜 ”， 类 似 情况 不 胜 枚 举 ， 加 上 商品 的 品类 也 在 持续 




















增加 ， 因 此 也 无 法 完全 通过 人 工 运营 来 解决 ， 图 6-1 列 举 了 “橄榄 油 ”的 案例 ， 左 边 是 现状 ， 而 右边 是 用 户 的 期 望 ， 差 距 非常 明显 。 

















那么 ， 如 何 更 精准 地 返回 搜 词 结果 ， 将 更 为 相关 的 商品 排 在 前 列 呢 ? 这 一 直 是 大 宝 挥 之 不 去 的 痛 ， 但 是 一 时 间 他 也 不 知道 应 该 如 何 解决 这 个 问题 。 只 能 再 次 请 黄 小 明 出 马 了 ， 大 宝 将 困境 一 五 一 十 地 告 
诉 了 小 明 。 

















“哈哈 ， 你 算 间 对 人 了 。 我 最 近 专门 在 研究 这 个 课题 ， 根 据 目前 线 上 测试 的 结果 来 看 ， 非 常 有 效 ， 下 面 我 就 来 共享 一 下 其 核心 的 技术 思想 。” 


第 6 章 方案 设计 和 技术 选 型 : 查询 分 类 和 搜索 的 整合 


6.1 ”问题 分 析 




















近期 ， 用 户 时 常 抱怨 的 另外 一 个 问题 就 是 ， 关 键 词 搜索 的 结果 非常 不 精准 。 搜 索 “ 牛 奶 ”， 很 多 牛奶 巧克力 ， 甚 至 是 牛奶 色 的 连衣裙 都 跑 到 搜索 结果 的 前 排 了 ， 用 户 体验 非常 差 。 但 是 ， 巧 克 力 和 连 衣 
裙 这 些 商品 标题 里 确实 存在 “牛奶 ”的 字样 ， 如 果 简单 地 抹 去 ， 又 会 导致 搜索 “牛奶 巧克力 ”或 “牛奶 色 连 衣 裙 ”时 无 法 展示 相关 的 商品 ， 这 肯定 也 是 无 法 接受 的 。 据 反馈 ， 这 类 搜索 不 精准 的 情况 十 分 普 
遍 ， 此 如 ， 搜 索 “ 橄 槛 油 ”的 时 候 会 返回 热门 的 “橄榄 油 发 膜 ”， 或 者 是 “橄榄 油 护 手 霜 ”; 搜索 “手机 ”的 时 候 会 返回 热门 的 “手机 壳 ” 和 “手机 贴膜 ”， 类 似 情况 不 胜 枚 举 ， 加 上 商品 的 品类 也 在 持续 
增加 ， 因 此 也 无 法 完全 通过 人 工 运营 来 解决 ， 图 6-1 列 举 了 “橄榄 油 ”的 案例 ， 左 边 是 现状 ， 而 右边 是 用 户 的 期 望 ， 差 距 非常 明显 。 

































































那么 ， 如 何 更 精准 地 返回 搜 词 结果 ， 将 更 为 相关 的 商品 排 在 前 列 呢 ? 这 一 直 是 大 宝 挥 之 不 去 的 痛 ， 但 是 一 时 间 他 也 不 知道 应 该 如 何 解决 这 个 问题 。 只 能 再 次 请 黄 小 明 出 马 了 ， 大 宝 将 困境 一 五 一 十 地 告 
诉 了 小 明 。 














“哈哈 ， 你 算 问 对 人 了 。 我 最 近 专门 在 研究 这 个 课题 ， 根 据 目 前 线 上 测试 的 结果 来 看 ， 非 常 有 效 ， 下 面 我 就 来 共享 一 下 其 核心 的 技术 思想 。 


6.2 ”结合 分 类 器 和 搜索 引擎 














小 明 首 先 向 大 宝 说 明了 为 什么 会 产生 搜索 结果 不 精准 的 情况 ， 这 其 实 主要 是 Lucene 默 认 打 分 机 制 惹 的 祸 。 无 论 是 Solr 还 是 Elasticsearch， 底 层 都 是 使 用 Lucene 来 实现 的 ， 它 们 也 继承 了 Lucene 的 相关 
性 评分 体制 。 目 前 默认 的 模型 为 8BM25， 它 和 VSM 类 型 一 样 ， 核 心思 想 是 计算 一 个 查询 中 所 有 关键 词 和 文档 的 相关 度 ， 然 后 再 对 分 数 做 累加 操作 。 而 每 个 关键 词 的 相关 度 分 数 主要 受到 tf-idf 的 影响 。 从 整体 
而 言 ， 影 响 BM25 模 型 的 主要 因素 有 如 下 几 点 。 

















全 部 分 类 只 销量 排序 v ”销量 排序 
欧 丽 薇 兰 纯正 橄榄 油 750ml/ 瓶 


飘 柔 橄榄 油 精华 发 腊 300ml/ 瓶 i 


二 
¥ = | 欧 坝 攻 兰 槛 模 油 5L/ 并 


相宜 橄榄 油 护 手 霜 80g/ 支 


欧 丽 薇 兰 纯正 橄榄 油 3L/ 桶 
¥9.9 地 / 


¥ 228 


绿 盾 橄榄 油 尿 素 霜 120g/ 盒 欧 丽 莪 兰 金 橄榄 PREMI0 特 级 初 榨 


橄榄 油 1L*2 礼 盒 


¥9.9 ~ ¥ 339 / 


飘 柔 橄榄 油 莹 润 润 发 欧 丽 薇 兰 金 橄榄 PREMIO 特 级 初 榨 
400ml/ 瓶 橄 柳 油 1L/ 瓶 


¥168 





图 6-1 左右 相 比 ， 相 关 性 有 明显 差距 


“ 逆 词 频 idf: idf 越 高 分 数 越 高 。 


“ 词 频 tf: tf 越 高 分 数 越 高 。 


“ 文档 长 度 : 如 果 该 文档 的 长 度 越 高 于 平均 值 ， 则 分 数 越 低 。 


“ 其 他 的 权重 调节 因子 : 例如 K、b 等 。 











为 了 证 实 这 点 ， 我 们 先 来 看 两 个 例子 。 首 先 在 已 经 搭建 的 Solr 集 群 中 查询 关键 词 “ 番 匣 ” ， 稍 有 不 同 的 是 ， 在 人 区 回 字段 中 设置 “*，score”， 这 样 返回 结果 中 就 会 增加 “score” 字 段 ， 展 示 每 篇 文档 
的 排序 得 分 。 在 图 6-2 中 ， 你 会 看 到 排名 靠 前 的 几 个 商品 标题 ， 都 拥有 多 次 的 “番茄 ”关键 词 命中 ， 包 括 同 义 词 “ 西 红 柿 ”在 内 ， 而 且 标 题 长 度 也 比较 短 。 这 里 关键 词 命中 的 次 数 对 应 了 BM 25 模 型 中 的 tf 词 





















































频 ， 而 商品 标题 长 度 对 应 了 BM25 模 型 中 的 文档 长 度 。 可 以 看 到 ， 其 中 某 些 商品 排序 得 分 很 高 ， 排 名 因此 也 很 靠 前 。 如 果 说 图 6-2 排 名 靠 前 的 记录 还 是 相关 的 ， 那 么 图 6-3 展 示 的 例子 就 更 糟糕 了 : 对 于 查询 











关键 词 “ 米 ”， 一 些 相关 性 很 差 的 饼干 竟然 排 到 了 最 前 列 。 原 因 是 这 些 饼干 的 标题 中 包含 了 更 多 的 关键 词 “ 米 ” ， 而 且 标题 长 度 也 较 短 ， 而 真正 的 大 米 商品 无 法 得 到 有 效 的 展示 。 再 来 看 看 Elasticsearch，， 
如 图 6-4 所 示 ， 可 以 发 现 类 似 的 现象 。 查 询 的 关键 词 是 “得 茄 ”方便 面 ”， 排 名 靠 前 的 商品 要 么 是 有 多 个 “ 赫 茄 "或 “方便 面 ”关键 词 的 命中 ， 要 么 是 标题 非常 简短 。 














Request-Handler (qt) 3 http://localhost:8983 /solr/listing_new/select?fl=*,score&indent=on&q=listing_title: 严 茄 &wt=js 








/select 








一 common 一 一 -一 “res eHeader™:{ i E 
” ° di 排名 靠 前 的 商品 ， 有 较 


q 
listing_title: 和 看 茄 








fq 














{ 











*,SCore 


一 一 


df 














设置 *, score, 显示 
每 篇 文档 的 得 分 








| json 
国 indent 
国 debugQuery 





国 dismax 

国 edismax 
国 hl 

国 facet 

国 spatial 

国 spellcheck 





“Qrime":0, 多 的 关键 词 命中 ， 而 且 


"params™ :1 J 和 人 
"q":"listing_title: 严 茄 "， 标题 长 度 较 短 


“indent”": "on”， 


"£1":"*,score", 
“wt”":"json", 
":"1486492444537"}}, 
"response" :{"numFound" :75, "start"0,"maxSgore™ :8.536035," SB” 3[ 


"listing_title":" 易 猫 海底 捞 楼 茄 英 颜 火 锅 底 料 晋 茄 味 2009g 袋 "， 
"category_name" : "海鲜 

"id":"4095", 

"category_id":3, 

” version ":1558700387404349442， 

"score":8.536035}, 


"listing_title":" 佳 利 麦 海南 千 禧 红 圣 女 果 6 斤 小 西红柿 三 茄 新 鲜 水 果 "， 
"category_name" : "新鲜 水 果 "”， 和 
"14d":s"16510", 

"category_id":11, 

"_version_":1558700388491722753，, 

"score":8.536035}, 


"listing_title":"parmalat 帕 玛 拉 特 圣 涛 天 然 鲜 析 西红柿 晋 茄 汁 11 意大利 进 
"category_name" : "饮料 饮品 ”， 

"id":"8524", 

"category_id":7, 

"_version_":1558700387915005963，, 

"score":7.931655}), 


"listing_title":" 佳 利 麦 海南 千 禧 红 圣 女 果 2 斤 装 小 西红柿 严 茄 新 鲜 水 果 "， 
"category_name" : "新 鲜 水 果 "， TT 
"id"”:"15184", 

"category_id":11, 

”version ":1558700388403642377， 

"score":7.931655}, 


"listing_title":" 果 蔬 乐 田 良 品 珍珠 小 妖 茄 4 斤 装 新 鲜 水 果 珍珠 圣 女 果 小 
"cateqory name": "新鲜 水 果 " ， 


图 6-2 关键 词 命中 的 次 数 和 文章 长 短 ， 确 实 影响 了 Solt 的 排序 





BM25、VSM 等 模型 的 相关 性 处 理 方式 非常 适合 普通 文本 的 检索 ， 在 各 大 通用 搜索 引擎 里 也 被 证 明 其 是 行 之 有 效 的 方法 之 一 。 然 而 ,我 们 需要 思考 的 是 ， 这 样 做 对 于 商品 搜索 而 言 真 的 是 有 效 的 吗 ? 实 














践 证 明 ， 这 类 相关 性 模型 往往 并 不 适合 电子 商务 的 搜索 平台 。 


原因 具体 如 下 。 








“ 商品 的 标题 通常 都 非常 短 。 目 前 电子 商务 网 站 的 搜索 引擎 通常 只 对 商品 的 标题 或 名 称 进行 索引 ， 而 不 会 针对 商品 的 具体 描述 进行 索引 。 这 主要 是 因为 描述 里 面 的 内 容 过 于 丰富 ， 还 包括 不 少 广告 宣 
传 ， 不 一 定 都 是 针对 产品 特性 进行 描述 的 信息 ， 如 果 进入 了 索引 ， 不 仅 加 大 了 系统 计算 和 存储 的 负担 ， 还 会 导致 较为 低下 的 精确 度 。 因 此 商品 的 标题 、 名 称 和 主要 的 导购 属性 成 为 搜索 索引 关注 的 对 象 ， 而 
这 些 内 容 一 般 短小 精怪 ， 不 需要 考虑 其 长 短 对 于 相关 性 衡量 的 影响 。 


“ 关键 词 出 现 的 位 置 、 词 频 对 相关 性 的 意义 不 大 。 如 上 所 述 ， 正 是 由 于 商品 搜索 主要 关注 的 是 标题 等 信息 浓缩 的 字段 ， 因 此 某 个 关键 词 出 现 的 位 置 、 频 率 对 于 相关 性 衡量 的 影响 非常 有 限 。 如 果 考 虑 了 
这 些 ， 反 而 容易 被 别有用心 的 商家 利用 ， 进 行 不 合理 的 关键 词 搜索 优化 (SEO) ， 寻 致 最 终结 果 的 质量 变 差 。 


的 时 候 ， 系 统 需要 搞 清楚 


Request-Handler (qt) 


3 http:/ /localhost:8983/solr/listing_new/select?fl=*,score&indent=on&q=listing_title: 米 &wt=json 





|/select 





一 common 
q 


"responseHeader" :{ 
"status":0, 





listing_title: 米 


"QTime" :2, 
"params":{ 





fq 








"q":"listing title: 米 "， 
"indent":"on", 
"£1":"*,Score", 
"wt":"json", 
"_"s"1486580633311"}}, 





"response":{"numFound":576,"start":0,"maxScore" :6.0811973, "docs":[ 





{ 
"listing_title":" 米 老头 青 很 米 棱 米 通 米 花 糖 类 膨化 食品 特产 小 吃 芝麻 味 150g"， 





"category_name" : "饼干 "， 





"id"”:"1566", 





"category_id":1, 
"_version_":1558700386915713026, 





Raw Query Parameters 
keyl=vall&key2=val2 


"score" :6.0811973}, 


"listing_title":" 米 老头 亲 米 糯米 饼 清香 椰 暮 味 320g 袋 "， 
"category_name":" . 
“2 73827 








wt 


"category_id":1, 








json 


"_version_":1558700386766815235, 





国 indent 
国 debugQuery 


国 dismax 

国 edismax 
国 hl 

国 facet 

国 spatial 

国 spellcheck 


r . 
Execute Query | 





"score":5.6151285}, 


"listing_title":" 米 兹 米 效 柠 梯 脆 饼干 240g 盒 "， 
"category_name" : "饼干 "， 

"4d"s"992°, 

"category_id":1, 
"_version_":1558700386811904003, 
"score":5.6151285}, 


"listing_title":" 米 兹 米 兹 趣 致 饼干 牛奶 味 120g 使"， 
"category_name" : "饼干 "， 

"id":"1036", 

"category_id":1, 

"_version_":1558700386822389762，, 

"score":5.6151285}, 


图 6-3 更 为 粮 糕 的 例子 : 关键 词 命中 的 次 数 和 文章 长 短 负面 影响 了 Solr 的 排序 


:用户 的 查询 普遍 比较 短 。 普 通 搜索 引擎 中 有 海量 的 网 页 信息 供用 户 查 阅 ， 因 此 用 户 为 了 准确 地 找到 其 所 寻找 的 信息 ， 可 能 会 输入 尽 可 能 多 的 关键 词 。 在 电 商 平台 上 ， 商 品 的 数量 相对 于 互联 网 的 网 页 





因此 ， 电 商 的 搜索 系统 不 能 

















户 是 期 望 找到 饮 





局 限于 关键 词 














信息 量 而 言 可 谓 冰山 一 角 ， 顾 客 无 须 太 多 的 关键 词 就 能 定位 大 概 所 需 的 商品 ， 因 此 查询 的 字数 多 少 对 于 相关 性 衡量 也 没有 太 大 的 意义 。 





的 词 频 、 出 现 位 置 等 基础 特征 ， 更 应 该 从 其 他 方面 来 考虑 。 前 面 大 宝 所 犯愁 的 问题 ， 实 际 上 主要 纠结 在 一 个 “分 类 ”的 问题 上 。 例 如 ， 顾 客 搜索 “牛奶 ”字眼 
的 牛奶 ， 包 括 鲜 奶 、 包 装 奶 、 进 口 奶 、 酸 奶 等 ， 还 是 牛奶 味 的 巧克力 或 饼干 。 








“那么 如 何 才能 得 知 这 样 的 信息 呢 ? 人 是 很 容易 理解 ， 但 是 系统 没 法 得 知 啊 ， 难 道 要 人 为 地 逐个 运营 吗 ”顾客 的 输入 干 变 万 化 ， 而 且 商 品 的 品类 也 会 逐步 更 新 ， 人 工 设置 的 工作 量 实在 是 太 巨 大 了 。“ 








“大 宝 ， 回 顾 一 下 之 前 的 章节 ， 你 想 想 看 有 什么 方法 可 以 解决 这 个 问题 ?“ 








“ 哦 ， 对 啦 ! 在 第 一 篇 我 们 学 习 过 机 器 学 习 的 算法 ， 其 中 的 自动 分 类 技术 应 该 可 以 帮助 我 们 ! 不 过 ， 我 们 已 经 发 现 分 类 的 效果 有 的 时 候 不 太 理想 ， 尤 其 是 针对 短 的 文本 ， 你 还 记得 当时 系统 错误 地 





将 “巧克力 牛奶 ”划分 为 巧克力 


了 吗 ? 就 像 图 





1-33 所 示 的 那样 。” 














“ 别 急 ， 除 了 商品 本 身 固 有 的 信息 之 外 ， 我 们 还 可 以 利用 用 户 的 行为 来 做 判断 ， 进 一 步 提升 分 类 的 效果 。” 











"took": 5, 

"timed_out": false, 

"_shards": { 
"oboal”s 3 
"successful": 3, 


一 一 i 
"failed": 0 排名 靠 前 的 商品 ， 有 和 较 
ew ， 多 的 关键 词 命 中 
"total": 16, 
"max_score": 12.001797， 
its”: T 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVN8QRoRLyf0] 
"_score": 12.001797， 
"_source": { 
"listing_id": "2504", 
"listing_title": "可 口 牌 新 加 坡 koka 番茄 汤 方便 面 泡 面 非 油 炸 340g 袋 进口 方便 面 "， 
"category_id": "2", 
"category_name": "方便 面 " 


}, 
{ 


"_index": "listing_new", = 一 
spee， "isting™- 排名 靠 前 的 商品 ， 标 
"_id": "AVN8QRoRLyf0JMZ32JVy", 题 长 度 很 短 
"_score": 11.99728, 
"_source": { 

"listing_id": "2587", 

"Listing_titLe": “康师傅 西红柿 鸡蛋 打 讽 面 1119 桶 "， 

"category_id": "2", 

"category_name" : "方便 面 " 


}， 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVn8QRoQlyf0JMZ32JL-", 
"_score": 11.628806, 
"_source": { 
"listing_id": "1959", 
"listing_title": "五 谷 道场 番茄 牛 脑 面 113g 袋 "， 
"category_id": "2", 
"category_name": "方便 面 " 
} 
}, 





图 6-4 关键 词 命 中 的 次 数 和 文章 长 短 ， 也 影响 了 Elasticsearch 的 排序 





“ 哦 ? 具体 应 该 怎样 操作 呢 ?” 




















“其 实 主 要 思路 并 不 复杂 ， 就 是 观察 用 户 在 搜 词 后 的 行为 ， 包 括 点 击 进入 的 详情 页 ， 或 者 是 否 添加 到 购物 车 ， 这 样 我 们 就 能 知道 对 于 每 个 关键 词 而 言 ， 顾 客 最 为 关心 的 是 哪些 类 目 了 。” 











“ 哇 ， 这 个 主意 好 ! 我 之 前 怎么 没有 想到 。” 











“ 咽 ， 所 以 这 个 问题 没有 想象 的 那么 难 。 举 个 例子 ， 当 用 户 输入 关键 词 “咖啡 ”， 如 果 经 常 浏览 和 购买 的 品类 是 国产 冲 饮 咖啡 、 进 口 冲 饮 咖啡 和 咖啡 饮料 ， 那 么 这 3 个 分 类 就 应 该 排 在 更 前 面 ， 而 对 于 其 
他 虽然 包含 “咖啡 ”字眼 、 但 并 不 太 相 关 的 分 类 ， 应 将 其 统统 排 在 后 面 。 同 时 ， 这 个 方法 还 可 以 在 一 定 程度 上 解决 季节 性 问题 ， 到 了 夏季 ， 人 们 查找 咖啡 时 更 希望 喝 到 冰 更 的 饮料 ， 而 不 是 冲 饮 。 到 了 冬 











季 ， 人 们 更 多 的 是 希望 找到 热乎 平 的 冲 饮 ， 而 不 是 饮料 ， 这 些 排序 需求 都 可 以 通过 
奶 分 类 的 商品 ， 而 不 是 巧克力 分 类 的 商品 。 









































因此 ， 我 们 完全 可 以 将 这 种 信息 和 之 前 的 


户 的 行为 来 进行 调整 。 
分 类 模型 相 结合 ，X 








“巧克力 牛奶 ”的 案例 也 是 同 理 ， 




















户 的 查询 进行 更 为 合理 的 分 类 ， 这 




















户 在 搜索 了 “巧克力 牛奶 ”的 关键 词 之 后 ， 通 常 都 是 选择 牛 
个 步骤 一 般 被 称 为 查询 分 类 (Query Classification) 。 












































“ 那 对 用 户 的 查询 进行 分 类 之 后 ， 又 应 该 怎样 提升 搜索 排序 呢 ?“ 
“综合 上 述 内 容 ， 整 体系 统 的 架构 基本 上 是 这 样 设计 的 。 ”小 明 画 出 了 一 个 框架 ， 如 图 6-5 所 示 。 其 中 ， 搜 索引 警部 分 仍然 采 





第 4 章 和 第 5 章 的 设计 方案 ， 通 过 HBase 融 合 异 构 数据 源 ， 然 后 在 

















SolrElasticsearch 上 ， 通 过 HBase 建 立 整体 的 商品 索引 ， 并 向 前 台 提 供 搜索 服务 。 而 对 于 数据 收集 和 分 析 ， 
户 输入 的 关键 词 和 期 望 分 类 之 间 的 关系 ， 提 供给 查询 分 类 器 旧 


体 来 说 又 有 几 种 不 同 


























该 模块 可 以 帮助 我 们 采集 
果 的 相关 性 。 





户 的 行为 数据 ， 将 
























搜索 引擎 


SolrCloud 












一 Mysor 数据 库 ?HBase 集群 Solr 节 点 1 Solr ， TY 
年 放 关 1 节点 n | 中 文 分 词 
ee MySOL 数据 库 
Sey. 存放 团购 的 原 
始 数据 ) 
查询 请 求 


查询 结果 


前 端 








可 。 而 查询 分 类 器 会 结合 商品 数据 及 





的 设计 方案 ， 我 们 将 在 第 四 篇 介绍 更 多 的 细节 和 实现 。 目 前 读者 只 需 理解 
户 行为 ， 引 导 搜索 引擎 进行 重新 排序 ， 最 终 提升 搜索 结 


























查询 分 类 器 





是 供 行为 数据 


的 反馈 











前 中 


提供 搜索 功能 


前 端 











前 端 











Kafka 消息 队列 集群 



























图 6-5 通过 用 户 的 行为 和 商品 数据 打造 查询 分 类 器 ， 最 终 提升 搜索 了 


6.3 ”案例 实践 


2 让 pod) Stom 流 式 计算 集群 了 
批量 国 表 le 
T= 
aoop 集群 
节点 1 
fn t 量 奋 询 集群 
行为 数据 收集 和 分 析 
1 擎 的 精准 度 


6.3;:1 


实验 环境 设置 























在 这 部 分 实验 中 ， 非 常 重要 的 一 项 就 是 








户 行为 数据 。 这 里 假设 已 经 有 了 一 个 样本 term_category_qc.txt， 





内 容 是 用 户 在 搜索 关键 词 之 后 ， 关 注 了 (哪些 分 类 。 下 面 是 部 分 内 容 : 











(搜索 词 ) (相关 类 目 列表 》) 
http://www.hzcourse. Dr At ebook/uncompressed/16351/0EBPS/Text/.. 
巧克力 {" 饼 干 ": 0.04，" 饮 料 饮品 ": 0.0， "巧克力 ": 
巧克力 德 甘 ": 1.0} 
克 力 奶 : 0.78， "巧克力 ": 中 2 
巧克力 威 化 : 0.67， "巧克力 ": 
巧克力 牛奶 \ 品 ": 0.07, A 0.87, "巧克力 ": 0.07} 
巧克力 豆 , 工 ， "巧克力 "; 
巧克力 痪 1.0} 
巧克力 饼干 :LO0} 








http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 

















其 中 ， 第 1 列 是 用 户 的 查询 关键 词 或 词组 ， 而 第 2 列 是 JJON 字 符 串 ， 表 示 了 每 个 分 类 的 一 个 概率 或 得 

















。 所 以 ， 每 一 行 就 代表 一 个 查询 和 分 类 之 间 的 对 应 关系 ， 而 每 个 分 类 后 面 的 分 数 则 代表 了 统计 概 














率 。 例 如 第 1 行 的 内 容 是 : 根据 网 站 所 有 顾客 行为 的 统计 ， 
值得 一 提 的 是 ， 由 于 这 个 
条 -分 类 表 (Term-Category) ， 并 利 








户 输入 关键 词 “ 巧 克 力 ”之 后 ， 有 4% 的 可 能 性 访问 了 “饼干 ” 
数值 可 能 是 根据 多 种 行为 加 权 综 合 而 来 的 ， 所 以 随 着 加 权 因 素数 量 和 权 
哈 希 表 结 构 进行 存储 和 读 取 。 完 整 的 数据 可 以 访问 : 


















































分 类 ， 而 96% 的 可 能 性 访问 了 “巧克力 ” 
的 变化 ， 随 着 时 间 的 推移 和 行为 的 不 断 发 生 ， 这 个 分 数 也 会 发 生变 化 。 我 们 可 以 将 这 种 结构 的 数据 称 为 词 


分 类 ， 和 正常 情形 下 的 预期 是 一 致 的 。 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/term _category qc.txt 


注 
意 再 次 强调 ， 此 数据 纯 属 人 为 虚构 ， 不 能 用 于 任何 线 上 的 生产 环境 。 如 果 你 需要 为 自己 的 项 目 量 身 打 造 这 样 的 数据 ， 请 参考 第 四 篇 的 内 容 ， 它 会 告诉 你 如 何 弄 清楚 用 户 在 搜索 菜 个 关键 词 时 对 哪 类 


商品 更 感 兴趣 ， 以 及 如 何 从 行为 日 志 中 获取 相关 信息 ， 等 等 。 





























此 外 ， 这 里 继续 延 用 第 1 章 介绍 的 基于 Mahout 的 在 线 NB 分 类 器 ， 并 结合 以 上 用 户 行为 数据 ， 将 其 扩展 为 一 个 新 的 查询 分 类 器 。 














6.3.2 ”构建 查询 分 类 器 











本 节 将 使 用 Java 代 码 示例 ， 展 示 如 何 将 用 户 行为 数据 与 第 1 章 所 构建 的 Mahout 分 类 器 相 结合 。 为 了 解析 term_category_qc.txt 中 的 JSON 字 符 串 ， 首 先 在 pom.xml 中 增加 相关 依赖 : 

















<!-- https://mnrepository.com/artifact/com.fasterxml .jackson.core/jackson-databind --> 
<dependency> 
<groupId>com. fasterxml .jackson.core</groupId> 
<artifactId>jackson-databind</artifactId> 
<version>2.7.5</version> 
</dependency> 














在 MahoutMachineLearning 项 目 中 ， 新 生成 NBQueryClassifierOnline 类 和 第 1 章 的 NBClassifierOnline 类 相 比 ， 它 主要 的 更 新 部 分 具体 如 下 。 
“ 增加 了 loadTerm2Categotry 函 数 ， 用 于 加 载 用 户 行为 数据 。 
“ 使 用 线性 加 权 ， 结 合 基于 商品 标题 的 分 类 和 基于 用 户 行为 的 分 类 。 


函数 loadTerm2Category 的 主要 代码 如 下 : 





public static HashMap<String， HashMap<String, Double>> loadTerm2Category (String file) { 


// 读 取 term category qc.txt， 并 将 其 加 载 到 内 存 

// 如 果 数 据 量 大 ， 可 能 还 需要 考虑 通过 数据 库 这 样 的 持久 化 存储 ， 来 保存 和 读 取 用 户 行为 数据 

ObjectMapper mapper = new ObjectMapper (); 

HashMap<String, HashMap<String, Double>> term2category = new HashMap<String, HashMap<Sstring, Double>>(); 





try { 


BufferedReader br = new BufferedReader (new FileReader (file)); 
String strLine = null; 
while ((strLine = br.readLine()) != null) { 

String[] tokens = strLine.split(™\t"); 

String term = tokens[0]; 

String json = tokens[1]; 


JsonNode jnRoot = mapper.readValue (json, JsonNode.class); 
if (jnRoot.size() > 0) { 
HashMap<String, Double> category2prob = new HashMap<>(); 
Iterator<String> iter = jnRoot.fieldNames (); 
while (iter.hasNext()) { 
String category = iter.next (); 
Category2prob.put (category, jnRoot.get (category) .asDouble()); 
E 
term2category.put (term, category2prob); 


} 
br.close(); 
} catch (Exception e) { 
// TODO: handle exception 


e.printstackTrace (); 
} 


return term2category; 


























由 于 目前 行为 数据 的 规模 非常 小 ， 因 此 可 以 直接 加 载 到 内 存 中。 但 如 果 数 据 量 过 大 ， 可 能 还 需要 结合 数据 库 等 持久 化 存储 或 缓存 ， 以 便 进行 高 效 地 读 取 。 在 main 函 数 中 调用 上 述 函数 : 




















// 加 载 新 增 的 用 户 行为 数据 
HashMap<String，HashMap<String，Double>> term2category = loadTerm2Category("/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/term _ category qc.txt"); 














而 后 就 可 以 综合 第 1 章 中 所 介绍 的 基于 商品 标题 的 分 类 和 新 加 入 的 基于 用 户 行为 的 分 类 了 : 














http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/.. 
// 得 出 归 一 化 后 的 、 基 于 商品 标题 的 分 类 结果 
HashMap<String，Double> listingClassification = 
for (Element element : predictionVector.all()) { 

int categoryId = element.index(); 

String category = categoryMapping.get (labels.get (categoryId) ) 7 

double score = element .get (); 

Score = Math.pow(2.0, score) / sum; // 归 一 化 

score = (int) (score * 100 + 0.5) / 100.0; 

if (category != null) { 

listingClassification.put (category, score); 


new HashMap<>(); 


} 
} 
System.out .Println ("基于 商品 标题 的 预测 为 : " + listingClassification); 


// 输出 基于 用 户 行为 数据 的 分 类 结果 . 
// 考虑 到 保留 用 户 输入 的 原始 语义 ， 这 里 并 不 进行 分 词 
HashMap<String，Double> 全 全 和 = term2category.get (Content) 7 
if (behaviorClassification != null) 
System.out .println( 为 为 : " + behaviorClassification); 
} 


/ 综合 两 种 方式 的 最 终 分 类 结 
es Double> od = new HashMap<>(); 
double bestScore = Double.MIN VALUE; 
String bestCategory = null; 
for (String category : listingClassification.keySet()) { 
double behaviorWeight = 0.8; 
double listingWeight = 0.2; 
double behaviorScore = 0.0; 
if (behaviorClassification != null) { 
if (behaviorClassification.containsKey (category)) { 
behaviorScore = behaviorClassification.get (category); 
} 
i 
double listingScore = listingClassification.get (category); 
double combinedScore = behaviorWeight * behaviorScore + listingWeight 
* listingScore; 
combinedScore = (int) (combinedScore * 100 + 0.5) / 100.0; 


if (combinedScore > bestScore) { 


bestScore = combinedScore; 
bestCategory = category; 


} 


combinedClassification.put (category, combinedScore); 


} 
System.out .println ("基于 上 述 两 者 的 预测 为 : " + combinedclassification); 


System.out .println (String.format ("根据 商品 标题 文本 和 用 户 行为 ， 最 终 预 测 的 分 类 为 : ss 
bestCategory) ) 7 
System.out .Println() 7， 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 





























加 


此 线性 加 和 的 时 候 ， 为 基于 行为 的 分 类 预测 赋予 




















需要 注意 的 是 ， 之 前 只 取出 了 预测 值 最 大 的 分 类 ， 而 这 里 为 了 线性 结合 en 此 处 假设 用 户 行为 更 为 准确 ， 
了 更 高 的 权重 0.8， 而 对 基于 商品 标题 的 分 类 预测 只 赋予 了 0.2 的 权重 。 最 后 运行 main 类 ， 将 在 终端 进行 新 的 分 类 测试 。 下 面 给 出 几 个 得 到 改善 的 样 例 : 


























请 输入 待 测 的 文 


.0 饼干 =0 .11， 新 鲜 水 果 =0.0， 大 米 =0.0， 坚 果 =0 .0， 沐 浴 露 =0.0， 进 口 牛奶 =0.1， 茶 叶 =0.0， 饮 料 饮品 =0.0， 电 脑 =0.0， 美 发 护 发 =0.0， 方 便 面 =0.C 
.87, =0.07} 
， 纯 牛奶 =0 .7， 饼 干 =0.02， 新 鲜 水 果 =0 .0， 大 米 =0.0， 坚 果 =0 .0， 沐 浴 露 =0.0， 进 口 牛奶 =0 .02， 茶 叶 =0.0， 饮 料 饮品 =0.06， 电 脑 =0.0， 美 发 护 发 =0.0， 方 便 面 =0. 










0 ge Leneh ebook/uncompressed/16351/0EBPS/Text/... 
威 化 加 

机 =0.0， 机 牛奶 =0 .0， 人 饼干 =0 .23， 新 鲜 水 果 =0.0， 大 米 =0.0， 坚 果 =0.0， 沐 浴 露 =0.0， 进 口 牛奶 =0.0， 茶 叶 =0.0， 饮 料 饮品 =0.0， 电 脑 =0.0， 美 发 护 发 =0.0， 方 便 面 =0.0， 
并 干 =0. 67， 巧 
=0.0， 海 鲜 水 产 =0 . 牛奶 =0.0， 饼 干 =0.58， 新 鲜 水 果 =0.0， 大 米 =0.0， 坚 果 =0.0， 沐 浴 露 =0.0， 进 口 牛奶 =0.0， 茶 叶 =0.0， 饮 料 饮品 =0.0， 电 脑 =0.0， 美 发 护 发 =0.0， 方 便 面 =0.0， 
， 最 终 预 测 的 分 类 7 饼干 
/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 

















.0， 海 鲜 水 产 =0.0， 纯 牛奶 =0.16， 人 饼干 =0.06， 新 鲜 水 果 =0 .0， 大 米 =0.0， 坚 果 =0.0， 沐 浴 露 =0.01， 进 口 牛奶 =0 .14， 茶 叶 =0.01， 饮 料 饮品 =0.05， 电 脑 =0.0， 美 发 护 发 =0.0， 方 便 面 


饮品 =1 .0} 
=0.0， 海 鲜 水 产 F 奶 =0 .03， 饼 干 =0.01， 新 鲜 水 果 =0 .0， 大 米 =0.0， 坚 果 =0.0， 沐 浴 露 =0.0， 进 口 牛 奶 =0.03， 蔡 叶 =0 .0， 饮 料 饮品 =0.81， 电 脑 =0.0， 美 发 护 发 =0.0， 方 便 面 =C 


祖 据 闸 品 标题 文本 和 用 户 行为 ， 最 经 领 测 的 分 类 为 饮料 饮品 





















































除了 之 前 提 到 的 “巧克力 牛奶 ”案例 ，“ 巧 克 力 威 化 ”的 分 类 也 由 “巧克力 ”修正 为 正确 的 “饼干 。 了 ， 而 “ 红 杰 牛奶 ”的 分 类 则 由 “ 囊 类 ”修正 为 正确 的 “饮料 饮品 ”。 








完整 的 代码 ， 请 参阅 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Classification/Mahout/MahoutMachineLearning 






































虽然 在 本 节 的 案例 中 ， 用 户 行为 的 数据 协助 我 们 获得 了 更 准确 的 分 类 结果 ， 但 是 在 实际 应 用 中 这 种 数据 较 难 获得 。 建 站 初期 ， 或 者 用 户 使 用 量 不 够 时 ， 都 会 导致 “ 冷 启动 ”的 问题 。 因 此 ， 你 需要 根据 
自身 的 情况 ， 灵 活 地 运用 商品 本 身 的 信息 、 用 户 行为 的 反馈 甚至 是 其 他 资源 。 


























np 



































6.3.3 ”定制 化 的 搜索 排序 

















有 了 增强 版 的 在 线 分 类 模块 ， 就 可 以 将 其 用 作 查 询 的 分 类 器 了 。 接 下 来 的 步骤 就 是 考虑 如 何 利用 查询 分 类 器 ， 进 一 步 提升 商品 搜索 的 相关 性 ， 这 就 会 涉及 如 何 定制 化 Solr 或 Elasticsearch 的 排序 了 。 











1. 修 改 默认 相似 度 (Similarity) 











在 之 前 的 章节 中 我 们 已 经 了 解 了 BM25， 它 是 Solr 和 Elasticsearch 默 认 使 用 的 得 分 计算 模式 。 如 果 BM25 并 不 适用 于 商品 搜索 ， 那 要 如 何 修改 呢 ? 为 了 充分 利用 查询 分 类 的 结果 ， 首 先 要 达到 这 样 的 目 
标 : 对 于 给 定 的 查询 ， 所 有 命中 的 结果 其 得 分 都 是 相同 的 。 至 少 有 两 种 做 法 : 修改 默认 的 Similarity 实 现 ， 或 者 是 使 用 过 滤 查 询 (Filter Query) 。 

















我 们 在 SearchEnginelmplementation 项 目的 SearchEngine.SearchEnginelmplementation.Solr 包 中 ， 为 Solr 实 现 了 自 定 义 的 ListingSimilarity， 修 改 tf、idf 等 输出 ， 将 最 终 的 相似 度 定义 为 1.0: 





public class ListingSimilarity extends ClassicSimilarity { 
public float lengthNorm(FieldInvertState state) { 


return 1.0f; 


i 


public float queryNorm(float sumOfSquaredWeights) { 
return 1.0f; 


} 


public float tf(float freq) { 
return 1.0f; 


} 


public float sloppyFreq(int distance) { 
return 1.0f; 


} 


public float idf(long docFreq, long docCount) { 
return 1.0f; 


EE 


public float coord(int overlap, int maxOverlap) { 
return 1.0f; 


} 


public float scorePayload(int doc, int start, int end, BytesRef payload) { 
return 1; 


} 




















由 








然后 编译 Maven 项 目 ， 生 成 SearchEnginelmplementation-0.0.1-SNAPSHOT.jar， 并 放 入 /Users/huangsean/Coding/solr-6.3.0/server/solr-webapp/webapp/WEB-INF/lib 中 。 为 了 让 Solr 使 
个 定制 的 相似 度 ， 还 需要 在 managed-schema 的 最 后 加 上 如 下 加 粗 斜 体 的 部 分 : 

















http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
<dynamicField name="* p" type="location" indexed="true" stored="true"/> 

<dynamicField name="*_c" type="currency" indexed="true" stored="true"/> 

<copyField source="*" dest=" text "/> 


<similarity class="SearchPngine.SearchEngineImplementation.Solr.ListingSimilarity"/> 


</schema> 





旱 启 Solr 以 生效 。 


最 后 ， 


由 | 
































另 一 种 做 法 是 使 用 过 滤 查 询 ， 这 种 做 法 无 论 是 对 Solr 还 是 Elasticsearch 都 是 通用 的 。 过 滤 查 询 的 和 普通 查询 的 一 大 区 别 在 于 : 过 滤 查 询 并 不 使 用 BM25 等 模型 计算 相关 性 ， 只 判定 关键 词 是 否 命中 ， 它 通 
过 牺牲 相关 性 来 换取 更 快 的 处 理 速度 。 在 这 里 ， 过 滤 查 询 的 特性 正 是 我 们 所 需要 的 。 在 Solr 中 ， 将 q 字 段 的 查询 内 容 移 到 fq 字 段 ， 并 将 q 设 置 为 “*: *”， 就 可 以 达到 这 个 目的 。 其 中 ， 将 q 设 置 为 “: ” 表 
示 获 取 全 部 的 文档 ， 而 fq 字 段 的 内 容 则 表示 过 滤 出 满足 条 件 的 商品 。 在 图 6-6 所 示 的 例子 中 ， 我 们 将 fq 设 置 为 “listing title: 米 ”， 试 图 找 出 和 米 相关 的 商品 。 从 截图 可 以 看 出 ， 虽 然 目 前 仍然 是 不 相关 的 饼 
















































































出 





























干 排列 在 前 ,但 是 所 有 命中 文档 的 得 分 都 变 为 了 1.0， 这 也 为 我 们 进行 下 一 步 的 操作 打 好 了 基础 。 





Request-Handler (qt) 
/select 








一 Common 


q 


3 http://localhost:8983/solr/listing_new/select?defType=edismax&fl=*,score&fq=|listing_title: 洒 


字段 q 中 设置 *:*， 
获取 全 部 文档 


"params":1{ 


fq 
listing_title: 米 








设置 listing title: 


米 的 过 滤 条 件 





设置 *,score， 显 示 
每 篇 文档 的 得 分 


Raw 
wt 


indent 
国 debugQuery 


国 spellcheck 


Elasticsearch 5.0 之 后 的 版 本 废弃 了 之 前 的 filtered 语 法 ， 


"q 


"de 


> 二 
"£ 


"fq 


ET 
fType":"edismax", 
ndent":"on", 
1":"*,score", 
":"listing title: 米 "， 


"wt":"json", 


esponse":{"numFound":576,"start":0,"maxScore":1.0,"docs":[ 


":"1486580633311"}}, 


"listing_title":" 格 力 高 百 醇 抹茶 慕 斯 提 拉 米 苏 芝士 蛋糕 味 48g 3 盒 "， 
"category_name" : "饼干 "， 

"4d"s"8", 

"category_id":1, 

"_version_":1558700386491039744, 

"score":1.0}, 
"listing title":" 巴 好 吃 零食 水 果 味 手工 饼干 美国 葛 越 莓 曲 奇 健康 
"category_name" : "饼干 "， 
"4d"s"49", 
"category_id":1, 


"_version ":1558700386522497 7 
"Score" :1.0}， 


"listing_title":" 奥 利 奥 巧 克 棒 提 拉 “ 米 苏 风味 256g 盒 20 条 "， 
"category_name" : "饼干 "， 

"4d"s"75", 
"category_id":1, 
"_version_":15587 
"score":1.0}, 


商品 文档 的 得 
分 都 变 为 1.0 


86535079938， 


"listing_title":" 米 老头 亲 麦 小 麦 饼 巧克力 味 320g 袋 "， 
"category_name" : "饼干 "， 
na" 





图 6-6 ”使 用 Solt 的 过 滤 查 询 ， 将 所 有 命中 文档 的 得 分 统一 为 1.0 








因 











此 你 需要 使 用 bool 查 询 的 语法 来 实现 过 滤 ， 例 如 : 








{ 
"query": { 
"bool": { 
"most": 
"match all": { 
} 
] 
J 
"tern": 4"listing title™ s "RR") 
} 
4 
} 
} 





FA 








图 6-7 所 示 。 


POST ~ http://localhost:9200/listing_new/listing/_search Params Save | 


Authorization Headers (1) Body @ Pre-request Script Tests 


四 form-data ” 国 XxWww-form-urlencoded raw 和 妃 binary JSON(application/json) v 


区 

2r "query": { 

3- "boot": 

4 "must": { 

Sr "match_all": { 

6 3 

]， 

8- to: 4 

9 "term": {"listing_title" : 
10 + 


Body Cookies Headers (3) Tests 


Raw Preview JSON vv 之 


I 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVn8QRoKLyf0JMZ32IuI", 
"_score": 1M| 
"_source": { 
"listing_id": "49", 


" 米 "} 


Code 


"listing_title": " 巴 拿 米 超 好 吃 零食 水 果 味 手工 饼干 美国 暮 越 其 


曲 奇 健康 无 添加 食品 170g 
"category_id": "1", 
"category_name": "饼干 " 


]， 
{ 


"_index": "listing_new", 
"type": "listing", 
"_id": "AVn8QRoKLyf0JMZ32Iu4", 
"_score": 1, 
"_source": { 

“LU “97" 


3 袋 "， 


"listing_title": "格力 高 百 醇 提 拉 米 苏 味 489g 盒 "， 


"category_id": "1", 
| "category_name": "饼干 " 
}, 
{ 
"_index": "listing_new", 
“te "iisting”, 
"_id": "AVn8QRoLLlyf0JMZ32Iws", 





图 6-7 Elasticsearch 的 过 滤器 ， 同 样 会 将 所 有 命中 文档 的 得 分 统一 为 1.0 


2. 根 据 分 类 修改 排序 











统一 了 基本 的 排序 得 分 之 后 ， 就 可 以 充分 利用 用 户 的 行为 数据 ， 指 导 搜索 引擎 进行 有 针对 性 的 排序 改变 ， 




















最 终 提升 搜索 结果 的 相关 性 。 需 要 注意 的 是 ， 由 于 这 里 排序 的 改变 依赖 于 用 户 每 次 输入 的 关键 








词 ， 因 此 不 能 在 索引 的 阶段 来 完成 。 例 如 ， 在 搜索 “牛奶 巧克力 ”的 时 候 ， 理 想 的 结果 是 将 巧克力 排列 在 前 ， 而 搜索 “巧克力 牛奶 ”的 时 候 ， 理 想 的 结果 是 将 牛奶 排列 在 前 ， 所 以 不 能 简单 地 在 索引 阶段 就 
利用 文档 提升 (Document Boosting) 或 字段 提升 (Field Boosting) 。 对 于 Solr 而 言 ， 它 有 一 个 强大 的 功能 叫 作 提升 查询 bq (Boost Query) ， 它 可 以 在 查询 阶段 ， 根 据 某 个 字段 的 值 ， 动 态 地 修改 命 

结果 的 得 分 。 因 此 ， 完 全 可 以 通过 前 述 的 词 条 -分 类 表 ， 构 建 包含 bq 参数 的 查询 条 件 。 仍 然 沿 用 “巧克力 牛奶 ”的 例子 ， 首 先 看 改良 之 前 的 情况 : 图 6-8 展 示 了 在 q 字 段 中 设置 “listing title: (巧克力 AND 
牛奶 ) ”是 无 法 获得 良好 的 相关 性 的 。 这 里 添加 布尔 操作 符 AND 是 为 了 覆盖 默认 的 OR 操作 ， 确 保 两 个 关键 词 都 要 命中 。 再 来 看 改良 之 后 的 情况 : 图 6-9 在 q 字 段 中 设置 了 “*: *， 
了 “listing title: “(巧克力 AND 和 牛奶) ”， 并 点 击 edismax 选 项 ， 在 下 拉 的 部 分 中 将 字段 bq 的 内 容 设 为 “category name: ”( 纯 牛奶 ^0.7) OR category name: (巧克力 ^0.21) ” ， 再 次 搜索 ， 就 可 使 






























































巧克力 口味 的 牛奶 排 到 前 列 ， 更 符合 用 户 的 预期 。 这 完全 是 在 没有 修改 索引 的 前 提 下 实现 的 。 参 数 bq 所 使 





























产 中 ， 可 能 还 需要 结合 现实 情况 ， 将 这 些 原始 数值 进行 等 比例 的 放大 或 缩小 。 



































的 0.7 和 0.21 都 是 来 自 查 询 分 类 器 的 结果 ， 过 小 的 取 值 已 经 被 过 滤 掉 ， 如 





在 fq 字 段 中 设置 








到 6-10 所 示 。 在 实际 生 











Request-Handler (qt) EE http://localhost:8983/solr/listing_new/select?defType=edismax&fl=*,score&indent=onN&q=lis 


/select 





{ 


一 Common 


q 





listing_title:( 巧 克 力 AND 





» 














Raw Query Parameters 





keyl=vall&key2=val2 


| 





wt 
json 


图 indent 
国 debugQuery 





国 dismax 
加 edismax 
国 hl 

国 facet 

国 spatial 

国 spellcheck 


"responseHeader":1{ 
"status":0, 
"QTime":1, 
"Params":{ 
"q":"listing_title: (牛奶 AND 巧克力 )"， 
"defType":"edismax", 
"indent":"on", 
"£1":s"*,score", 
"wt"s"json", 
"_":"1486583445561"}}, 
"response":{"numFound":400,"start":0,"maxScore":7.503308, "docs":[ 
{ 
"listing_title":" 德 芙 丝 滑 牛奶 巧克力 新 款 红双喜 字 丝 滑 牛奶 巧克力 婚庆 喜 将 
"category_name" :" 巧 克 力 "， 
"da"s"5607°, 
"category_id":6, 
"_version_":1558700387625598981, 
"score":7.503308}, 


"listing_title":" 德 美 精巧 装 礼盒 巧克力 牛奶 巧克力 黑 巧克力 348g"， 
"category_name" :" 巧 克 力 "， 

"id":"5898", 

"category_id":6, 

"_version_":1558700387651813384, 

"score" :7.4845877}, 


"listing_title":" 卡 奇 巧克力 卡 奇 mini 牛奶 威 化 巧克力 125g"， 
"category_name" :" 人 饼干 "， 

9069" 

"category_id":1, 

”version ":1558700386807709700， 

"SCore" :6.9831347}， 


"listing_title":" 梁 丰 牛奶 麦 巧克力 麦 丽 奈 100g 80 后 童年 巧克力 "， 
"category_name" : "巧克力 "， 

sd ed, 

"category_id":6, 





图 6-8 用 户 搜索 关键 词 “ 巧 克 力 ”和 “牛奶 ”， 排 名 靠 前 的 都 不 是 巧克力 牛奶 


Request-Handler (qt) 3 http://localhost:8983/solr/listing_new/select?bq=category_name:( 纯 牛奶 和 0.87) 





{ 

"responseHeader":1{ 
"status":0, 
"QTime":2, 
"params":{ 

"g's "sr", 


"defType":"edismax", 


fq 
"indent":"on", 
listi title: 
isting_title:( 巧 克 力 "fq":"listing title: (巧克力 AND 牛奶 ) "， 


"wt":"json", 

"_":"1486583445561", 

"bq":"category_name: ( 纯 牛奶 ^0.87) OR category_name: (巧克力 ^0.07) 
"response":{"numFound":400,"start":0,"docs":[ 

{ 





"listing_title":"harvey fresh 哈 维 巧克力 味 牛奶 饮品 250ml 6 省 
"category_name" :" 纯 牛奶 "， 

"d's S316", 

"category_id":5, 

"_version_":1558700387600433155}，, 





"listing_title":"devondale 德 运 巧克力 牛奶 调制 乳 200m1l1 6 澳 大 
Raw Query Parameters "category_name" :" 纯 牛奶 "， 

"category_id":5, 

"_version_":1558700387595190276}，, 








"listing_title":"devondale 德 运 巧克力 牛奶 调制 乳 200ml 24 澳 ; 
"category_name" :" 纯 牛奶 "， 
"id":"5293", 
"category_id":5, 
"_version_":1558700387598336011}，, 
@ edismax 
q.alt "listing_title":" 好 时 白 巧 克 力 调味 牛奶 236ml 美国 进口 "， 
"category_name" :" 纯 牛奶 "， 
"id":"5453", 
"category_id":5, 
"_version_":1558700387611967496}，, 








"listing_title":"saliter 赛 力 特 阿尔 卑 斯 巧克力 牛奶 500ml 德国 
"category_name" :" 纯 牛奶 "， 








图 6-9 ”相关 性 改良 过 后 ， 排 名 靠 前 的 都 是 巧克力 口味 的 牛奶 


BR Problems @ Javadoc [®& Declaration /9 Search 


NBQueryClassifierOnline [Java Application] /Library/Java/JavaVirtualMachines/jdk1.8.0_92.jdk/Contents/Home/bin/java ( 
SLF4]: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 

SLF4J]: Defaulting to no-operation (NOP) logger implementation 

SLF4]: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details. 

请 输入 待 测 的 文本 : 巧克力 牛奶 

基于 商品 标题 的 预测 为 : {手机 =0 .0， 海 鲜 水 产 =0 .0， 纯 牛奶 =0 .03 ， 饼 干 =0.11， 新 鲜 水 果 =0.0， 大 米 =0.0， 坚 果 =0.0 
基于 用 户 行为 的 预测 为 : {饮料 饮品 =0 .07 ， 纯 牛奶 =0 .87 ， 巧 克 力 =0 .07} 

基于 上 述 两 者 的 预测 为 : {手机 =0 .0， 海 鲜 水 产 =0 .0， 纯 牛奶 =0 .7 ， 人 饼干 =0 .02 ， 新 鲜 水 果 =0 .0， 大 米 =0 .0， 坚 果 =0 .0， 
根据 商品 标题 文本 和 用 户 行为 ， 最 终 预测 的 分 类 为 : 纯 牛 奶 


请 输入 待 测 的 文本 : 








图 6-10 针对 “巧克力 牛奶 ”， 查 询 分 类 器 的 结果 








Elasticsearch 的 实现 方法 与 此 类 似 ， 这 次 以 查询 “ 米 ” 为 案例 ， 改 良 前 如 图 6-11 所 示 ， 不 相关 的 饼干 排名 在 最 前 面 。 











为 了 实现 参照 分 类 的 排序 ， 我 们 同样 将 查询 改 为 过 滤器 ， 并 增加 基于 分 类 的 boost。 对 _search 端 点 所 POST 的 内 容 做 如 下 修改 : 


POST v http://localhost'9200/listing_newW/listing/_search ”Params Save 


Authorization Headers (1) Body @ Pre-request Script Tests 


form-data xwww-form-urlencoded ®@raw binary JSON(applicatiomjson) Y 


"query": { 
"match" : { 
"listing_title" : { 
"query" : " 米 中 











Headers (3) Tests Status: 200 OK Time: 33 ms 


Preview JoONv 之 CQ 


"took": 19， 
"timed_out": false, 
"_shards": { 
otal 3 
"successful": 3， 
"failed": 0 
}, 
"hits": { 
"total": 565, 
"max_score": 6.3368816, 
"hits"s [ 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVn8QRoPLyf0JMZ32JF1", 
"_score": 6.3368816, 
"_source": { 
"listing_id": "1566", 
"listing_title": " 米 老头 青 牺 米 棒 米 通 米 花 糖 类 膨化 食品 特产 小 吃 
芝麻 味 150g"， 
"category_id": "1", 
"category_name": "饼干 " 


"_index": "listing_new", 
type": "listing", 
SQRoRLyf0JMZ32JXT" 





图 6-11 用 户 搜 索 “ 米 ”， 排 名 靠 前 的 是 不 相关 的 饼干 





YY 
“booln; 生 
"must": { 
"match all": { 
} 


] 
"ghould"™s [ 


"match": { 
"category name": { 
"query": "大 米 "， 
"hoost": 0.85 
} 


: 
] 


"match" : { 
"Category name": { 


"auery": "饼干 "， 
"hoost"s 0:03 


EC 
"category name": { 
query": "巧克力 "， 
"hoost": 0.03 
i 


} 
], 
人 

"tern™": 1"listing title™ : "六 "} 
} 











更 新 的 部 分 主要 是 增加 了 should 的 查询 ， 针 对 最 主要 的 3 个 相关 分 类 进行 了 boost 操 作 。 其 中 各 类 boost 的 分 值 同样 来 自 查询 分 类 器 。 结 果 如 图 6-12 所 示 ， 和 之 前 对 比 有 了 明显 的 进步 。 





6.3.4 ”整合 查询 分 类 和 定制 化 排序 


























为 了 提供 实时 的 线 上 服务 ， 我 们 还 需要 通过 Java 代 码 将 查询 分 类 和 定制 化 排序 的 模块 结合 起 来 。 在 第 4 章 中 ， 已 经 使 
改良 之 后 的 搜索 引擎 。 
































适配器 的 设计 模式 ， 实 现 了 基本 的 搜索 引擎 。 这 里 将 使 用 装饰 器 模式 ， 实 现 相 关 性 














首先 ， 在 SearchEnginelmplementation 项 目 中 ， 引 入 MahoutMachineLearning.Classifica-tion 的 包 ， 为 查询 分 类 做 准备 。 由 于 SearchEnginelmplementation 项 目 使 用 的 Solr 和 Lucene 都 是 6.x 版 














本 

















因此 普通 的 IKAnalyzer Jar 包 不 再 适用 ， 需 要 加 载 第 4 章 中 介绍 的 ik-analyzer-solr6.xjar。 在 pom.xml 中 进行 如 下 配置 ， 引 入 本 地 的 ik-analyzer-solr6.xJjar: 





<!-- IKAnalyzer 的 依赖 Jar 包 --> 
<dependency> 
<groupId>com.janeluo</groupId> 
<artifactId>ikanalyzer</artifactId> 
<version>for lucene6.x</version> 
scope>system</scope 


< pe> 
<!-- 本 地 ja 的 路 径 , 相对 路 径 或 绝对 路 径 都 可 以 --> 


<systemPath>/Users/huangsean/Coding/solr-6.3.0/server/solr-webapp/webapp/WEB-INF/1ib/ik-analyzer-solr6.x.jar</systemPath> 


</dependency> 

<!-- 以 下 版 本 和 Lucene 6.x 不 兼容 --> 

<!-- <dependency> 
<groupId>com.janeluo</groupId> 
<artifactId>ikanalyzer</artifactId> 
<version>2012 u6</version> 

</dependency>--> 

















当 


POST YYv http://localhost:9200/listing new/listing/ search Params Save 


Authorization Headers (1) Body® Pre-request Script Tests 


form-data xwww-form-urlencoded @®@raw binary JsON (application/json) v 


"category_name": { 
"query": "大 米 "， 
"boost": 0.85 
} 
}, 


Body Cookies Headers (3) Tests Status: 200OK Time: 31 ms 


Preview JsoN v 三 Q 


"took": 19， 

"timed_out": false, 

"_shards": { 
"total": 3, 
"successful": 3, 
"failed": 0 


}, 
"hits": £ 
"total": S565, 
"max_score": 3.3360121， 
“RS E 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVn8QRoflyf0JMZ32Mxf",| 
"_score": 3.3360121, 
"_source": { 
"listing_id": "16648", 
"listing_title":" 福 临门 水 晶 米 5kg 袋 "， 
"category_id": "12", 
"category_name": "大 米 " 
}, 
{ 
"_index": "listing_new", 
"type": "listing", 
"_id": "AVNn8QRoflyf0JMZ32MyF"， 


"_score": 3.3360121， 
"_source": { 





图 6-12 ”相关 性 改良 后 ， 排 名 靠 前 的 都 是 食用 大 米 








然后 在 SearchEnginelmplementation 项 目的 MahoutMachineLearning.Classification 包 中 ， 新 创建 一 个 专用 于 搜索 的 查询 分 类 器 NBQueryClassifierOnlineForSearch。 它 封装 了 分 类 器 的 内 部 实 
只 暴露 出 了 分 类 预测 的 predict (String query) 接口 ， 其 逻辑 和 之 前 NBQueryClassifierOnline 中 的 main 函 数 的 逻辑 大 体 一 致 。 














下 面 ， 就 是 基于 Solr 的 搜索 引擎 之 新 实现 一 一 SolrSearchEngineRelevant。 先 看 看 它 和 基础 搜索 引擎 很 接近 的 部 分 : 





Private SolrSearchEngineBasic sseb = null; 
protected NBQueryClassifierOnlineForSearch nbqcsearch = null; 


public SolrSearchEngineRelevant (SolrSearchEngineBasic sseb) { 


// 基本 的 搜索 引擎 不 变 


this.sseb = sseb; 


// 增加 了 查询 分 类 模块 


nbqcsearch = new NBQueryClassifierOnlineForSearch(); 


} 


public void cleanup() { 
sseb.cleanup(); 
nbqcsearch.cleanup (); // 增加 了 查询 分 类 的 资源 回收 
} 


// 索引 部 分 保持 不 变 


public String index (List<ListingDocument> documents, Map<String, Object> indexParams) 


return sseb.index (documents, indexParams); 


. 





从 中 可 以 看 出 ，SolrSearchEngineRelevant 接 受 了 SolrSearchEngineBasic 的 一 个 实例 ， 保 持 其 索引 行为 不 变 ， 不 过 增加 了 











辑 ， 都 在 查询 接口 的 具体 实现 中 : 





// 查询 部 分 附加 上 相关 性 的 逻辑 
public String query (Map<String, Object> queryParams) { 
// TODO Auto-generated method stub 





QueryResponse response = null; 
try { 


// 适 配 部 分 : 根据 输入 的 搜索 请 求 ， 生 成 Solz 所 能 识别 的 查询 
String query = queryParams .get ("query") .toString () 7 
String[] terms = query.split("\\s+"); 
StringBuffer sbQuery = new StringBuffer () 7 
for (String term : terms) { 
if (sbQuery.length() == 0) { 
sbQuery .append (term); 
} else { 
// 为 了 确保 相关 性 ， 使 用 了 AND 的 布尔 操作 
sbQuery .append (" AND ") .append (term); 
} 


} 
String[] fields = (String []) queryParams.get ("fields"); 
StringBuffer sbQf = new StringBuffer(); 
for (String field : fields) { 
if (sbQf.length() == 0) { 
sbQf .append (field); 


} else { 
// 在 多 个 字段 上 查询 
sbQf .append (" ") .append (field); 


} 


// 为 支持 翻 页 (pagination) 操作 的 起 始 位 置 和 返回 结果 数 
int start = (int) (queryParams.get ("start")); 
int rows = (int) (queryParams .get ("rows")); 


// 构建 Solr 使 用 的 查询 

SolrQuery sq = new SolrQuery(); 
sq.setParam("defType", "edismax"); 
sq.set ("gq", Mx:xn); 

sq.set ("fq", sbQuery.toString()); 
sq.set ("gf", sbQf.toSstring()); 
sq.set ("start", start); 
sq.set ("rows", rows); 


// 新 增 的 装饰 部 分 ， 通 过 查询 分 类 的 结果 来 优化 相关 性 . | 
// 如 下 这 行 可 以 使 用 RESTful API 或 服务 化 模块 代 蔡 ， 这 样 模块 间 的 看 合 度 会 更 低 
HashMap<String, Double> queryClassificationResults 
= (HashMap<String, Double>) nbqcsearch.predict (query.replaceAll 
("stm, nm) 7 
for (String cate : queryClassificationResults.keySet()) { 
double score = queryClassificationResults.get (cate) 7 
if (score < 0.02) continue; // 去 除 得 分 过 低 的 噪声 点 


// 使 用 过 滤 查 询 


sq.add("bq"，String.format ("category name: (%s^%f)", cate, score)); 
// System.out.println (String.format ("category name: (%s^%f)", cate, score)); 


} 
// 获取 查询 结果 


response = sseb.solrClient .query (sq); 
SolrDocumentList list = response.getResults(); 


// 这 里 略 去 后 续 统 一 文档 拼装 的 实现 


} catch (Exception ex) { 
ex.printStackTrace (); 


} 


return response.tosString(); 

















于 查询 分 类 的 nbqcsearch， 以 及 相关 的 资源 释放 。 而 搜索 相关 性 改进 的 逻 









































其 中 黑色 加 粗 和 斜体 的 部 分 是 关键 ， 它 使 用 nbqcsearch 对 输入 的 查询 进行 分 类 ， 然 后 根据 分 类 结果 构造 Solr 查 询 中 的 bq 部 分 。 这 段 代 码 中 有 一 行 注释 很 














// 如 下 这 行 可 以 使 用 RESTful API 或 服务 化 模块 来 代 蔡 ， 这 样 模块 间 的 看 合 度 会 更 低 
HashMap<String, Double> queryClassificationResults 
= (HashMap<String, Double>) nbqcsearch.predict (query); 











它 表明 在 线 上 环境 ， 该 行 代码 应 该 被 服务 化 的 调用 所 蔡 代 ， 这 样 就 可 以 对 分 类 和 搜索 模块 进行 解 耦 。 你 会 发 现在 分 析 、 查 找 和 定位 大 型 系统 中 的 问题 时 ， 这 样 的 松 耘 合 非常 有 利于 我 们 的 理解 和 操作 。 








最 后 就 能 在 main 函 数 中 进行 对 比 测试 了 ， 示 例 代码 如 下 : 








public static void main (String[] args) { 
// TODO Auto-generated method stub 


// 测试 查询 接口 

// 连接 Solr Cloud 的 ZooKeeper 设 置 ， 可 以 根据 你 的 需要 进行 设置 
Map<String, Object> serverParams = new HashMap<>(); 
serverParams.put ("zkHost", "192.168.1.48:9983"); 

// 查询 读 取 哪 个 collection， 可 以 根据 你 的 需要 进行 设置 


serverParams.put ("collection", "listing collection"); 


// 创建 基本 款 搜索 引擎 
SolrSearchEngineBasic sseb = new SolrSearchEngineBasic (serverParams); 
// 使 用 装饰 器 模式 设计 的 新 搜索 引擎 
SolrSearchEngineRelevant sser 
= new SolrSearchEngineRelevant (sseb); 


Map<String, Object> queryParams = new HashMap<>(); 
// 查询 关键 词 
queryParams .put ("query",， "巧克力 牛奶 "); 
queryParams.put ("fields", 

new String[] {"listing title"}); 
queryParams.put ("start", 0); /7 从 第 1 条 结果 记录 开始 
queryParams .Put ("rows", 5); // 返回 5 条 结果 记录 





// 对 比 相 关 性 改善 前 后 


System.out .println ("基础 搜索 ; \t\t" + sseb.query(queryParams) ) 7 
System.out .Println (" 相 关 性 改良 后 的 搜索 : \t" + sser.query (queryParams) ) ; 


sseb.cleanup () 
sser.cleanup(); 





这 里 不 难 发 现 通过 装饰 器 模式 可 实现 如 下 好 处 。 


“ 降低 开发 和 维护 成 本 : 我 们 可 以 保持 原 有 搜索 引擎 实现 (SolrSearchEngineBasic 和 ElasticSearchEngineBasic) 中 的 某 些 部 分 不 变 ， 例如 文档 的 索引 。 而 同时 ， 在 查询 部 分 附加 上 相关 性 提升 的 逻辑 。 这 无 
疑 减轻 了 开发 的 成 本 ， 也 为 将 来 的 维护 和 修改 提供 了 更 为 清晰 的 路 线 。 


“ 利于 服务 降级 : 在 大 型 系统 中 ， 你 无 时 无 刻 不 在 考虑 系统 的 承载 能 力 。 一 旦 用 户 流量 猛 涨 ， 或 者 是 菜 些 子 模块 出 现 了 问题 ， 如 何 保障 整体 系统 平稳 地 运行 就 成 为 首要 问题 。 较 为 智能 的 解决 方案 之 一 
是 系统 自动 降级 ， 即 按照 需要 将 非 核心 的 功能 逐步 关闭 ， 在 一 定 程度 上 降低 系统 的 负载 。 这 里 ， 我 们 可 以 假设 相关 性 提升 并 非 最 核心 的 功能 ， 到 了 系统 即将 前 溃 的 边缘 ， 或 者 说 查询 分 类 器 出 现 了 故障 的 时 
候 ， 它 是 可 以 被 暂时 放弃 的 。 在 这 个 前 提 下 ， 如 果 采 用 的 是 装饰 器 模式 ， 你 很 容易 就 能 将 这 部 分 逻辑 区 分 出 来 ， 动 态 地 进行 屏 项。 


在 本 节 的 最 后 ， 一 起 来 看 看 相关 性 改进 的 逻辑 在 Elasticsearch 上 是 如 何 实现 的 : 





// 查询 部 分 附加 上 相关 性 的 逻辑 
public String query (Map<String, Object> queryParams) { 
// TODO Auto-generated method stub 


SearchResponse response = null; 
try { 
// 适 配 部 分 : 根据 输入 的 搜索 请 求 ， 生 成 Elasticsearch 所 能 识别 的 查询 


String indexName = queryParams.get ("index") .toString (); 
String typeName = queryParams.get ("type") .toString (); 
String query = queryParams.get ("query") .toString () 7 


String[] fields = (String []) queryParams.get ("fields"); 
int from = (int) (queryParams.get ("from")); 
int size = (int) (queryParams.get ("size")); 


String mode = queryParams.get ("mode") .toString(); 
QueryBuilder qb = null; 


qb = QueryBuilders.boolQuery() 
.must (QueryBuilders.matchAllQuery ()); 


// 更 好 的 查询 的 构造 ， 采 用 AND 的 布尔 操作 ， 提 升 相关 性 
String[] terms = query.split("\\s+"); 
for (String term : terms) { 
qb = QueryBuilders.boolQuery () 
.must (qb) 
.filter (QueryBuilders.multiMatchQuery (term, fields)); 
} 


// 新 增 的 装饰 部 分 ， 通 过 查 询 分 类 的 结果 ， 优 化 相关 性 
// 如 下 这 行 可 以 使 用 RESTful API 或 服务 化 模块 来 代 蔡 ， 这 样 模块 间 的 耦合 度 会 更 低 
HashMap<String, Double> queryClassificationResults 

= (HashMap<String, Double>) nbqcsearch.predict (query); 


for (String cate : queryClassificationResults.keySet()) { 
float score = queryClassificationResults.get (cate) .floatValue () 7 
if (score < 0.02) continue; // 去 除 得 分 过 低 的 噪音 声 点 


qb = QueryBuilders.boolQuery() 
.must (qb) 
.Should (QueryBuilders .matchouery ("category name", cate) .boost (score)); 


} 


// 获取 查询 结果 
response = eseb.esClient .prepareSearch (indexName) .setTypes (typeName) 
.SetSearchType (SearchType .DEFAULT) 
.SetQuery (qb) 
.SetFrom (from) .setSize (size) 
:get (); 


// 这 里 略 去 后 续 统 一 文档 拼装 的 实现 
} catch (Exception ex) { 
ex.printStackTrace (); 


} 


return response.toString(); 





可 以 看 出 ，Elasticsearch 中 的 新 增 部 分 和 Solr 中 的 新 增 部 分 大 同 小 异 ， 区 别 就 在 于 查询 的 拼装 部 分 。 运 行 main 函 数 加 以 比较 : 





public static void main (String[] args) { 
// TODO Auto-generated method stub 


// Elasticsearch 服 务 器 的 设置 ， 可 以 根据 你 的 需要 进行 设置 

Map<String, Object> serverParams = new HashMap<>(); 
SerVerParams .Put ("server", new byte[]{ (byte)192, (byte)168,1,48}); 
SerVerParams .Put ("port", 9300); 

serverParams.put ("cluster", "ECommerce"); 


// 初始 化 两 个 基于 Elasticsearch 的 搜索 引擎 ， 一 个 是 基础 款 ， 一 个 是 相关 性 改善 后 的 
ElasticSearchEngineBasic eseb = new ElasticSearchEngineBasic (serverParams); 
ElasticSearchEngineRelevant eser = new ElasticSearchEngineRelevant (eseb); 





// 测试 查询 接口 

Map<String, Object> queryParams = new HashMap<>(); 
// 和 Solr 有 所 不 同 ， 需 要 在 这 里 指定 索引 和 类 型 
queryParams.put ("index", "listing new"); 
queryParams.put ("type", "listing"); 

// 查询 关键 词 

queryParams .put ("query",，" 米 "); 





( 
queryParams.put ("fields", new String[] {"listing title"}); 
queryParams.put ("from", 0); // 从 第 1 条 结果 记录 开始 
queryParams .put ("size", 5); // 返回 5 条 结果 记录 
queryParams .put ("mode", "BoolQuery"); // 选择 基础 查询 模式 


// 对 比 相关 性 改善 前 后 
System.out .println ("基础 搜索 ; \t\t" + eseb.query (queryParams) ) 7 
// 查询 并 输出 
System.out .Println (" 相 关 性 改良 后 的 搜索 : \t" + eser.query (queryParams) ) ; 
// 再 次 查询 并 输出 


eseb.cleanup (); 
eser .Cleanup (); 





下 面 是 查询 “ 米 ” 的 比较 结果 ， 商 品 的 相关 性 得 到 了 明显 的 提升 : 





"took":4, "timed out":false," shards":{"total":3,"successful":3, "failed":0},"hits":{"total":565, "max score":6.3368816, "hits": [{"_ index":"listing new"," type":"1isting"， ”id":"R 
加 堪 扩 展 词 奥 ，ext .dic = 是 二 全 
加 载 扩展 停止 词 典 : stopword. 
根据 商品 标题 文本 和 用 户 行为 ， EE 的 分 类 为 : 大 米 
相关 性 改良 后 的 搜索 : 
{"took":7, "timed out":false,"_ shards":{"total":3,"successful":3, "failed":0},"hits":{"total":565, "max_score":3.3360121, "hits": [{"_ index":"1isting new"," type":"1isting" ”id":"R 


完整 的 项 目 代码 位 于 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/SearchEnginelmplementation 














如 果 你 的 项 目 拥 有 数量 足够 大 、 质 量 足 够 高 的 用 户 搜索 ， 那 么 就 很 适合 采用 本 节 所 介绍 的 技术 。 即 使 不 进行 大 规模 的 人 工 干预 ， 你 的 系统 同样 也 可 以 提供 更 相关 的 搜索 结果 


























四 根据 具体 的 应 用 ， 可 能 包括 查看 详情 页 、 添 加 购物 车 、 收 藏 等 行为 。 
[中 Mahout 的 预测 值 不 是 可 以 直接 使 用 的 概率 ， 而 是 经 过 了 一 系列 转化 之 后 的 值 。 出 于 简化 考虑 ， 样 例 代码 在 归 一 化 之 前 ， 进 行 了 大 致 的 复原 。 如 果 对 细节 感 兴趣 的 读者 ， 可 以 遵从 Mahout 源 码 和 朴素 贝 叶 斯 
模型 进行 严谨 的 复原 步骤 。 


第 7 章 方案 设计 和 技术 选 型 : 个 性 化 搜索 


7.1 问题 分 析 




















大 宝 和 小 明 对 排序 问题 的 细节 又 进行 了 一 些 探讨 ， 没 想到 小 明 的 话 匣子 一 下 子 被 打开 了 ， 他 提出 对 于 高 级 的 搜索 应 用 而 言 ， 个 性 化 也 是 非常 重要 的 。 通 常 ， 人 们 容易 产生 一 个 误区 ， 就 是 认为 只 有 推荐 
系统 才 需 要 个 性 化 ， 其 实 不 然 ， 搜 索引 擎 同样 需要 。 搜 索 的 输入 是 明确 的 关键 词 ， 而 推荐 往往 没有 明确 的 查询 条 件 。 所 以 ， 搜 索要 求 的 是 精准 ， 而 推荐 在 某 种 程度 上 则 需要 满足 用 户 对 “新 颖 ”的 渴望 ， 从 
这 个 角度 而 言 ， 搜 索 更 需要 准确 的 个 性 化 。 假 想 一 下 ，A 品 牌 的 奶 浇 在 全 网 是 非常 畅销 的 ， 大 部 分 顾客 在 搜索 A 品牌 时 都 会 选择 相应 的 奶 撼 产品 。 此 时 ， 一 位 5 岁 男 童 的 妈妈 在 网 站 上 进行 关键 词 搜索 ， 虽 然 
她 的 儿子 早已 过 了 喝 奶瓶 的 阶段 ， 不 过 她 一 直 在 购买 A 品 牌 的 儿童 洗衣 液 ， 如 果 她 输入 A 品 牌 后 系统 在 结果 首页 能 返回 这 个 品牌 的 洗衣 液 而 不 是 奶瓶 ， 那 么 顾客 体验 会 更 佳 ， 这 就 是 分 类 /品类 的 个 性 化 。 图 
7-1 展 示 了 品类 个 性 化 的 场景 。 另 一 种 场景 下 ， 这 位 妈妈 没有 输入 A 品 牌 ， 而 是 输入 了 “儿童 洗衣 液 ”， 如 果 是 A 品 牌 的 洗衣 液 产品 排 在 首页 ， 而 不 是 她 觉得 陌生 的 其 他 品牌 ， 用 户 体 验 也 会 更 佳 ， 这 就 是 品 
牌 的 个 性 化 。 
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7.2 ”结合 用 户 画 像 和 搜索 引擎 









































在 进行 个 性 化 设计 之 前 ， 最 关键 的 问题 是 如 何 收集 和 运用 顾客 的 行为 数据 。 前 面 在 讲解 搜索 相关 性 提升 内 容 时 ， 已 经 介绍 了 如 何 利用 整体 用 户 的 搜索 行为 。 而 在 实践 中 ， 用 户 个 人 行为 的 涉及 面 更 为 广 
泛 ， 需 要 进行 更 多 细致 的 分 析 ， 通 常 我 们 将 相应 的 工程 称 为 “用 户 画像 ”。 为 了 帮助 读者 更 好 的 理解 ， 这 里 给 出 了 一 个 较为 全 面 的 设计 概述 。 
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贝亲 -标准 口径 玻璃 奶瓶 
240ML 





时 


¥ 53 


贝亲 宽 口 径 PP 奶 瓶 
160ml (黄色 ) 


¥65 


贝亲 宽 口 径 PP 奶 瓶 
160ml (绿色 ) 


¥65 


贝亲 宽 口径 PP 奶瓶 
240ml (黄色 ) 


图 7-1 














开发 
可 以 利 














户 画 像 ， 首 先 要 回答 的 问题 是 : 哪些 
， 具 体 如 下 。 














户 数据 可 以 收集 ? 
































“位置: 随 着 移动 互联 网 的 兴起 ， 用 户 的 地 理 位 置信 息 越 来 越 重 要 。 在 用 户 允 许 的 情况 下 ， 可 以 通过 全 球 定位 系 
助 我 们 了 解 客户 所 在 区 域 的 群体 画像 ， 包 括 他 们 的 消费 习惯 、 品 牌 偏好 等 。 


“气候: 利用 用 户 的 地 理 位 置 ， 以 及 第 三 方 的 天 气 预 报 等 资源 ， 获 取 用 户 所 在 地 区 的 天 气 状况 ， 包 括 是 上 晴 还 是 雨 


: 设备 : 如 果 允 许 ， 还 可 以 获知 用 户 当前 设备 还 安装 了 哪些 其 他 应 用 ， 以 便于 侧面 理解 用 户 的 喜好 和 职业 。 
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户 数 据 又 可 以 分 为 原始 数据 和 提炼 数据 。 最 基本 的 原始 数据 包括 网 站 浏览 、 
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贝亲 浓缩 型 婴儿 衣物 清洗 剂 
1L+ 贝 亲 浓缩 型 婴儿 衣物 清 … 


YH 





时 


¥78.8 


贝亲 婴儿 多 效 洗衣 液 (柠檬 
草 香 型 ) 1.2L 


¥49 


志 / 


贝亲 浓缩 型 黑 儿 衣物 清洗 剂 
500ml 补 充 装 *2/ 组 
局 


¥51.8 +/ 


贝亲 浓缩 型 婴儿 衣 
500ml 补 充 装 


输入 同样 的 品牌 ， 普 通 搜索 和 个 性 化 搜索 结果 的 对 比 


购物 和 致电 行为 等 。 除 此 以 外 ， 还 有 很 多 有 





要 的 原始 信息 


统 (GPS) 对 其 定位 ， 或 者 是 通过 用 户 自己 选择 的 商 圈 、 社 区 来 定位 。 地 理 位 置 可 以 帮 


气压 和 湿度 等 。 


和 气温 
、 气 温 、 









































“其他: 随 着 越 来 越 多 的 智能 设备 开始 流行 ， 我 们 甚至 还 能 知道 用 户 所 处 环境 的 光亮 、 磁 场 、 辐 射 等 信息 。 
除了 原始 的 数据 ， 还 可 以 结合 人 工 的 运营 ， 生 成 一 些 包含 语 义 的 用 户 标签 。 这 里 的 用 户 标签 ， 或 者 说 属性 标签 ， 是 一 个 具有 语义 的 标签 ， 用 于 描述 用 户 的 一 组 行为 特征 。 例 如 ， “美食 达 人 ” “数码 玩 
家 ” “白领 丽人 ” “理财 专家 ”等 。 对 于 标签 的 定义 ， 按 照 第 一 篇 所 介绍 的 机 器 学 习 方 法 论 ， 既 可 以 考虑 采用 监督 式 的 分 类 方法 ， 也 可 以 采用 非 监督 式 的 聚 类 方法 。 





(1) 分 类 
这 种 做 法 的 好 处 在 于 可 以 让 人 工 运营 向 计算 机 系统 输入 更 多 的 先 验 知识 ， 标 签 的 制定 和 归 类 更 为 精准 。 从 操作 的 


“ 通过 人 工 规则 指定 。 例 如 ， 运 营 人 员 指 定 最 近 1 个 月 ， 至 少 购买 过 2 次 以 上 母 婴 产品 ， 消 费 额 在 500 元 以 上 的 为 
有 很 强 的 可 读 性 ， 便 于 人 们 的 理解 和 沟通 。 但 是 ， 如 果 用 户 的 行为 特征 过 于 繁多 ， 运 营 人 员 人 往往 很 难 里 别 出 哪 些 具 有 


“ 通过 样 例 来 指定 。 相 对 于 规则 而 言 ， 更 为 简单 的 方法 是 ， 运 营 人 员 挑 选 一 些 具有 代表 性 的 用 户 ， 输 入 系统 ， 让 





层面 考虑 ， 又 可 以 细 分 为 如 下 两 种 方法 。 


“ 辣 妈 ”由 标签 。 这 里 的 规则 就 相当 于 直接 产生 类 似 决策 树 的 分 类 模型 ， 它 的 优势 在 于 具 
代表 性 。 这 时 如 果 仍 然 使 用 规则 ， 那 么 就 不 容易 确定 规则 的 覆盖 面 或 是 精准 度 。 


系统 根据 分 类 技术 来 学 习 ， 模 型 可 以 使 用 决策 树 、 朴 素 贝 叶 斯 (Naive Bayes，NB) 或 支 


持 向 量 机 (Support Vector Machine，SVM) 。 这 种 方式 虽然 在 海量 标签 库 里 操作 起 来 比较 省 事 ， 但 是 其 对 于 技术 系统 的 要 求 会 更 高 。 同 时 ， 除 了 决策 树 的 模型 以 外 ， 其 余 模 型 产生 的 人 群 分 组 会 缺乏 可 读 性 内 


容 ， 很 难 向 业务 方 解 释 其 结果 。 

















作为 标签 。 
(2) 聚 类 
运营 人 员 参 与 得 最 少 ， 完 全 利用 用 户 直接 的 相似 度 来 确定 ， 相 似 度 同样 可 以 根据 行为 特征 和 内 容 特 征 来 进行 衡量 





























综合 上 述 两 点 来 看 ， 分 类 的 技术 比较 适合 业务 需求 明确 、 运 营 人 员 充 足 、 针 对 少量 高 端 顾客 的 管理 ， 其 精准 性 可 
AB 测 试 ， 其 对 精准 性 的 要 求 不 高 ， 但 是 数据 处 理 的 规模 有 一 定 门槛 。 
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尽 可 能 多 的 环境 信息 ， 刻 画 更 为 完整 的 











户 画像 ， 这 是 个 性 化 数据 营销 的 根本 。 有 了 








“ 搜索 ， 投 其 所 好 ， 增 加 搜索 栏 位 中 详情 页 的 点 击 率 和 购买 转化 率 。 





进行 个 





a) 个 性 化 的 商品 排序 ， 根 据 








经 常 购买 的 品类 和 品牌 ， 对 搜索 结果 中 的 商品 








行 个 | 








b) 个 性 化 的 导购 





属性 。 根 据 和 





户 经 常 购买 的 品类 和 品牌 ， 对 搜索 结果 中 的 导购 





属性 进行 个 性 化 的 排序 。 


户 的 基础 数据 ， 我 们 会 发 现 互 联网 模式 下 的 许多 应 


一 种 缓解 的 办 法 是 让 系统 根据 数据 挖 据 中 的 特征 选择 技术 ， 包 括 信 息 增益 〈Information Gain，IG) 或 开 方 检验 (CHI) 等 ， 从 而 确定 这 组 人 群 应 该 具有 怎样 的 特征 ， 并 将 其 


b: 
b, 





。 其 问题 也 在 于 结果 缺乏 解释 性 ， 只 全 





通过 特征 选择 等 技术 来 挑选 具有 代表 性 的 标签 。 











以 提升 贵宾 服务 的 品质 。 而 聚 类 则 更 适合 于 大 规模 








户 群体 的 管理 ， 甚 至 是 进行 在 线 的 














都 将 变 得 更 加 有 趣 。 


性 化 的 排序 。 本 节 也 会 针对 这 个 环节 进行 实践 。 

















5) 个 性 化 的 搜索 提示 。 例 如 ， 经 常 购买 儿童 洗衣 液 的 用 户 ， 输 入 儿 




















品 的 品牌 后 ， 在 搜索 下 拉 框 中 会 优先 提示 该 品牌 的 儿童 洗衣 液 。 


“ 基于 用 户 的 推荐 ， 在 用 户 画像 完善 的 前 提 下 ， 可 以 通过 包含 各 种 行为 和 内 容 特征 的 数据 ， 找 出 和 当前 用 户 相似 的 “近邻 ”。 第 10 章 会 介绍 更 多 推荐 算法 的 细节 。 





“ 电子 邮件 营销 (E-mail Direct Marketing，EDM) 。 传 统 的 线 下 营销 ， 由 于 印刷 和 人 力 成 本 的 制约 ， 无 法 做 到 因 人 而 异 的 精准 化 定向 投放 。 而 在 线 上 这 一 点 却 成 为 可 能 。 大 体 上 有 两 种 主流 的 做 法 ， 具 
体 如 下 。 























a) 人 工 运 营 用 于 营销 的 电子 邮件 ， 根 据 品类 、 品 牌 、 节 日 或 时 令 ， 分 为 不 同 的 主题 。 同 时 ， 根 据 用 户 的 画像 ， 将 他 们 分 别 和 这 些 主 题 进行 相似 度 的 匹配 。 
































b) 人 工 运 营 并 不 会 涉及 内 容 的 细节 ， 而 是 制定 一 定 的 模板 和 规则 ， 然 后 让 系统 根据 用 户 画像 的 特征 ， 自 动 地 填充 模板 并 最 终生 成 电子 邮件 的 内 容 。 


























“ 移动 APP 的 推送 。 随 着 移动 端 逐 渐 占据 互联 网 市 场 的 主导 地 位 ， 掌 上 设备 的 APP 推 送 变 成 了 另 一 个 重要 的 营销 渠道 。 从 技术 层面 上 看 ， 它 可 以 采用 与 EDM 类 似 的 解决 方案 。 不 过 ， 内 容 的 运营 要 考虑 
到 移动 设备 的 屏幕 尺寸 和 交互 方式 的 特性 ， 并 进行 有 针对 性 的 优化 。 


“ 和 第 三 方 的 合作 : 打通 用 户 的 流量 也 是 业界 目前 最 常见 的 做 法 。 对 于 O2O 电 商 而 言 ， 用 户 的 主力 军 是 有 消费 力 的 年 轻 人 ， 因 此 可 以 去 了 解 他 们 关注 了 哪些 其 他 的 互联 网 领域 ， 然 后 和 那些 领域 的 行业 
领先 者 进行 流量 的 互 换 ， 甚 至 在 菜 些 业 务 上 进行 深度 合作 。 这 个 时 候 ， 用 户 画像 就 成 为 双方 快速 建立 沟通 渠道 的 利器 ， 使 得 跨行 业 的 用 户 管理 成 为 可 能 。 





综合 这 些 因素 ， 我 们 可 以 设计 类 似 于 图 7-2 所 示 的 整体 架构 。 
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图 7-2 ”利用 用 户 画 像 进行 顾客 的 管理 


行为 数据 的 收集 和 分 析 
































这 种 架构 包括 行为 数据 的 收集 和 分 析 模 块 ， 具 体 细节 将 会 在 第 四 篇 介绍 。 其 间 可 能 需要 使 用 第 一 篇 介绍 的 机 器 学 习 技术 ， 例 如 Mahout 或 R， 对 行为 数据 或 人 工 运营 的 数据 进行 聚 类 、 分 类 处 理 ， 并 最 终 
将 属性 标签 设置 到 HBase 里 存放 。 用 户 画像 可 能 会 根据 应 用 场景 的 不 同 而 有 很 多 不 同 的 划分 方式 ， 而 且 随 着 市 场 的 扩张 ， 其 规模 也 会 日 益 庞大 ， 因 此 这 里 也 选择 列 式 存储 HBase， 以 达到 异 构 数据 整合 和 横 
向 水 平 扩 展 的 目的 。 类 似 Redis 的 缓存 系统 ， 能 够 提升 数据 查询 的 效率 ， 为 前 端的 搜索 、 推 荐 、EDM 和 APP 推 送 等 应 用 提供 服务 。 当 然 ， 我 们 还 可 以 利用 行为 数据 的 跟踪 ， 进 一 步 分析 这 套 画像 系统 的 质量 
和 效果 ， 形 成 一 个 螺旋 式 上 升 的 优化 闭环 。 




















































































































有 了 基本 的 全 局 观 ， 让 我 们 再 次 回 到 个 性 化 搜索 排序 的 业务 场景 。 此 时 ， 画 像 系 统 可 以 获取 并 分 析 用 户 对 品牌 、 分 类 、 价 位 等 因素 的 喜好 ， 为 搜索 提供 每 位 用 户 的 细 化 数据 ， 使 得 个 性 化 服务 成 为 可 
能 。 其 整体 架构 如 图 7-3 所 示 。 与 第 6 章 的 图 6-5 相 比 ， 图 7-3 将 查询 分 类 器 归 入 搜索 引擎 模块 中 了 ， 从 而 突显 了 用 户 画像 的 构建 和 使 用 模块 。 考 虑 到 搜索 的 查询 是 在 线 的 实时 性 服务 ， 因 此 需要 在 HBase 的 基 
础 之 上 加 入 类 似 Redis 的 缓存 机 制 ， 以 用 于 大 幅 提升 画像 数据 的 读 取 性 能 。 
































































































































搜索 





[由 请 注意 ， 


MySOL 数据 库 
= 存放 商品 和 雇 : 
铺 的 原始 数 Je 


引擎 


fHBase 集群 
= 


节点 1 








MySOL sl 库 。/ 字 节点 n 
Bi 
的 原始 数 
数据 集成 | 


MySOL 数据 库 
EE 放 团 购 的 原 






查询 请 求 


Pal 


; Hadoop 集群 





7.3 ”案例 实践 


| 节点 n 


SolrCloud 


Solr 


节点 n ; 


Solr 节点 1 


; 数据 更 新 


一 > 


提供 搜索 功能 


图 7-3 












‘ 





Kafka 消 


Flume 数据 
采集 集群 








个 性 化 本 身 就 是 一 个 很 有 意思 的 话题 ， 下 面 来 展示 一 个 有 意思 的 案例 。 图 7-4 列 举 了 虚构 的 四 位 
法 和 相关 性 的 提升 比较 类 似 ， 主 要 包含 以 下 2 个 步骤 。 

















户 ， 以 及 他 们 喜欢 的 分 类 、 


“ 在 用 户 登 录 后 ， 我 们 可 以 根据 顾客 账号 ID 从 用 户 画像 中 获取 他 /她 对 于 不 同 品类 、 不 同 品牌 的 喜好 程度 。 


“ 通过 Solr 和 Elasticsearch 的 Boost 查 询 对 不 同 的 品类 、 品 牌 或 其 他 维度 进行 动态 调整 。 
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通过 用 户 的 行为 ， 建 立 用 户 画 像 ， 提 供 个 性 化 搜索 服务 
这 里 只 是 根据 用 户 行为 来 判定 属性 标签 ， 并 不 代表 用 户 真 实 的 性 别 。 
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品牌 和 标签 。 本 节 将 展示 这 些 








户 画 像 会 对 搜索 排序 产生 怎样 的 影响 。 该 方 





7.3.1 用 户 画像 的 读 取 
由 于 我 们 并 没有 现成 的 用 户 画像 ， 所 以 首先 需要 在 HBase 中 手动 插入 画像 的 测试 数据 : 
hbase (main) :003:0> create 'user profile', "datafields' 
0 row(s) in 2.2910 seconds 
hbase (main) :004:0> Put 'user profile', "userl'， 'datafields:name', "7 
0 row(s) in 0.0090 seconds 
hbase (main) :005:0> Put 'user profile', 'userl', 'datafields:categories',' 新 鲜 水 果 ' 
0 row(s) in 0.0100 seconds 
hbase (main) :006:0> put 'user profile', 'userl', 'datafields:brands',' 光 明 ' 
0 row(s) in 0.0020 seconds 
hbase (main) :007:0> Put 'user profile', "userl'， 'datafields:tags', ' 老 人 ' 
0 row(s) in 0.0050 seconds 
hbase (main) :008:0> Put "user profile', 'user2', 'datafields:name', ' 李 四 ' 
0 row(s) in 0.0100 seconds 
hbase (main) :009:0> Put 'user profile', 'user2', 'datafields:categories', ' 进 口 牛奶 ， 手 机 ' 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 


hbase (main) 
0 row(s) in 


hbase (main) 
0 row(s) in 


hbase (main) 
0 row(s) in 


hbase (main) 
0 row(s) in 


:015:0> Put 'user profile', 'user4', 
0.0090 seconds 


:016:0> 
0.0090 


Put 'user profile', 
seconds 


'userd4', 


301730> 
0.0040 


Put 'user profile', 
seconds 


'user4', 


:018:0> 
0.0080 


Put 'user profile', 
seconds 


'user4', 


'datafields:name'，"' 赵 六 ' 
' 手 机 ， 电 脑 ' 


'datafields:categories', 


'datafields:brands'，' 苹 果 ' 


'datafields:tags'，' 自 由 职业 ' 

















由 于 数据 量 不 大 ， 因 此 这 里 跳 过 了 缓存 这 一 层 ， 直 接 从 HBase 中 读 取 用 户 画 像 。 在 SearchEnginelmplementation 项 目 中 新 建 SearchEngine.UserProfile 的 包 ， 以 及 UserProfile 类 ， 它 将 负责 从 HBase 
获取 画像 数据 。 其 资源 的 初始 化 和 释放 与 之 前 HBase 相 关 的 代码 类 似 : 


三 

“ 分 类 : 新 鲜 水 果 
“品牌: 光明 

* 其 他 标签 : 老人 























李 四 

“分 类 : 进口 牛奶 ， 手 机 
* 品牌 : 欧 德 堡 

* 其 他 标签 : 白领 





省 赵 六 
. 分 类 : 手机， 饮料 饮品 性 . 分类: 手机 ， 电 脑 
信号 一 品牌 : (无 ) WE .品牌 : 苹果 
司 .其 他 标签 : 学 生 , 儿童。 | . 其 他 标签 ， 自 由 职业 


图 7-4 ”四 位 用 户 的 简单 画像 





// 基本 配置 和 连接 

private static Configuration conf = null; 
Private static Connection conn = null; 
private static HTable htable = null; 


// HBase 连 接 的 相关 配置 和 初始 化 


Public static synchronized void init() { 


if (conf == null || conn == null) 1{ 
conf = HBaseConfiguration.create(); 
conf .set ("hbase.zookeeper .property.clientPort", "2181"); 


conf. set ("hbase.zookeeper.quorum", "192.168.1.48:2181"); 
conf.set ("hbase.master", "16000"); 


try { 
conn = ConnectionFactory.createConnection (conf); 
} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 


} 


// 释放 资源 
public static void cleanup() { 
if (conn != null) { 
try { 


conn.close(); 
conn = null; 
} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 
conn = null; 


} 
if (conf != null) { 


conf.clear(); 
conf = null; 





然后 是 使 用 HBase 的 GET API 来 获取 用 户 对 于 分 类 、 品 牌 等 的 偏好 : 





public static Map<String, String> getPrefence (String table, String userid) { 
Map<String, String> preference = new HashMap<>(); 


// 连接 指定 的 HBase 表 格 

try { 
htable = (HTable) conn.getTable (TableName.valueOf (table)); 
Get get = new Get (userid.getBytes ()); 


Result res = htable.get (get); 
System.out .Println (new String (res.getRow())); 


// 读 取 HBase 表 格 user_profile 中 的 各 个 字段 ， 获 取 用 户 感 兴趣 的 分 类 
for (Cell cell : res.rawCells()) { 
String columFamily = new String (CellUtil.cloneFamily (cell)); 
if ("datafields".equalsIgnoreCase (columnFamily)) { 
String qualifier = new String (CellUtil.cloneQualifier (cell)); 
preference.put (qualifier, new String (CellUtil.cloneValue (cell))); 


} 


} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace () 7 

} 


return preference; 





你 可 以 运行 如 下 的 测试 代码 验证 HBase 的 连接 和 读 取 是 否 正常 : 





public static void main (String[] args) { 


// TODO Auto-generated method stub 
UserProfile.init (); 
System.out .println (UserProfile.getPrefence ("user profile", "user1")); 


UserProfile.cleanup () 7 





7.3.2 个 性 化 搜索 引擎 
































有 了 用 户 画 像 的 支持 ， 我 们 可 以 打造 更 加 个 性 化 的 搜索 引擎 。 其 基本 的 思路 是 ， 根 据 用 户 对 分 类 、 品 牌 等 的 喜好 ,或 者 是 其 自身 的 用 户 标签 ， 来 相应 地 调整 搜索 排序 。 例 如 ， 某 位 用 户 对 进口 商品 青睐 
有 加 ， 那 么 在 保证 相关 性 的 前 提 下 ， 可 以 将 更 多 的 进口 商品 排 在 前 列 。 而 另外 一 位 用 户 对 某 个 品牌 有 所 喜好 ， 那 么 应 该 将 更 多 该 品牌 的 商品 排 在 前 列 。 如 果 用 户 本 身 也 存在 年 龄 、 职 业 、 性 别 这 样 的 标签 ， 
那么 对 应 标签 的 商品 也 可 以 排 在 前 列 。 通 过 商品 的 分 类 category_name 字 段 来 调整 商品 排序 ， 这 一 点 在 前 面 的 相关 性 调 优 部 分 已 经 有 过 介绍 ， 这 里 可 以 使 用 同样 的 方法 。 而 对 于 品牌 和 标签 ， 由 于 本 案例 的 
测试 商品 缺乏 这 些 数据 ， 所 以 暂时 以 商品 标题 listing_title 字 段 的 关键 词 来 代替 。 首 先 来 看 看 Solr 的 个 性 化 搜索 引擎 实现 样 例 代 码 SolrSearchEnginePersonalized: 


























































































































private SolrSearchEngineRelevant sser = null; 
public SolrSearchEnginePersonalized (SolrSearchEngineRelevant sser) { 


// 相关 性 搜索 引擎 不 变 


this.sser = sser; 


// 增加 了 用 户 画像 的 获取 模块 


UserProfile.init (); 
LE: 
public void cleanup() { 

sser.cleanup(); 

UserProfile.cleanup (); // 增加 了 用 户 画 像 的 资源 回收 
} 


// 索引 部 分 保持 不 变 
public String index (List<ListingDocument> documents, Map<String, Object> indexParams) { 


return sser.index (documents, indexParams); 











在 初始 化 和 资源 回收 的 步骤 中 ， 除 了 基本 的 相关 性 搜索 引擎 ， 还 增加 了 用 户 画像 的 相关 部 分 。 索 引 函 数 依然 可 以 保持 不 变 。 而 在 查询 部 分 ， 则 有 较 大 的 变化 。 首 先是 接口 发 生 了 一 点 改变 ， 增 加 了 


Userid : 











public interface SearchEnginePersonalizedInterface { 


// 这 里 只 实现 了 索引 和 查询 接口 ， 感 兴趣 的 读者 可 以 自行 尝试 聚集 等 其 他 操作 的 接口 
public String index (List<ListingDocument> documents, Map<String, Object> 
indexParams); 

public String query (Map<String, Object> queryParams, String userid); 


public String aggregate (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/...); 





然后 是 具体 的 代码 : 





// 查询 部 分 附加 上 个 性 化 的 逻辑 
public String query (Map<String, Object> queryParams, String userid) { 
// TODO Auto-generated method stub 


QueryResponse response = null; 
try { 


// 适 配 部 分 : 根据 输入 的 搜索 请 求 ， 生 成 Solz 所 能 识别 的 查询 
String query = queryParams .get ("query") .toString (); 
String[] terms = query.split("\\s+"); 
StringBuffer sbQuery = new StringBuffer () 7 
for (String term : terms) { 
if (sbQuery.length() 一 0) { 
sbQuery.append (term) 
} else { 
// 为 了 确保 相关 性 ， 使 用 了 AND 的 布尔 操作 
sbQuery.append (" AND ") .append (term); 
} 
} 
String[] fields = (String []) queryParams.get ("fields"); 
StringBuffer sbQf = new StringBuffer(); 
for (String field : fields) { 


if (sbQf.length() == 0) { 
sbQf .append (field); 
} else { 
// 在 多 个 字段 上 查询 
sbQf .append (" ") .append (field); 


} 


// 为 支持 翻 页 (pagination) 操作 的 起 始 位 置 和 返回 结果 数 
int start = (int) (queryParams .get ("start")); 
int rows = (int) (queryParams .get ("rows")); 


// 构建 Solr 使 用 的 查询 

SolrQuery sq = new SolrQuery() 
sq.setParam("defType", "edismax"); 

sq.set ("gq", mx:xn); 

sq.set ("fq", sbQuery.toSstring()); // 使 用 过 滤 查 询 
sq.set ("gf", sbQf.toString()); 
sq.set ("start", start); 
sq.set ("rows", rows); 


// 新 增 的 装饰 部 分 ， 根据 用 户 ID userid， 获 取 该 用 户 的 喜好 数据 
HashMap<String, String> preference = 
(HashMap<String, String>) UserProfile.getPrefence ("user profile", userid); 


// 对 于 分 类 的 喜好 程度 ， 通 过 category_name 字 段 的 boost 实 现 
if (preference.containsKey("categories")) { 
String[] categories = preference.get ("categories") .split("[, |,]"); 
for (String category : categories) { 
sq.add ("bq", String.format ("category name: (%s^%f)", category, 0.1)); 
i 
E 


// 由 于 数据 有 限 ， 目 前 关于 品牌 的 喜好 是 通过 商品 的 标题 字段 listing_title 来 实现 的 
if (preference.containsKey("brands")) { 
String[] brands = preference.get ("brands") .split("[, |,]"); 
for (String brand : brands) { 
sq.add ("bq", String.format ("listing title: (%s^%f)", brand, 0.1)); 
} 


// 由 于 数据 有 限 ， 目 前 关于 标签 也 是 通过 商品 的 标题 字段 1isting _ title 来 实现 的 
if (preference.containsKey("tags")) { 
String[] tags = preference.get ("tags") .split("[, |,]"); 
for (String tag : tags) { 
sq.agdd ("bq", String.format ("listing title: (%s^%f) 


, tag, 0.1)); 
} 
} 


// 之 前 的 装饰 部 分 ， 通 过 查询 分 类 的 结果 来 优化 相关 性 。 相 关 性 仍然 是 最 基本 的 ， 要 保持 较 高 的 boost 分 值 
// 如 下 这 行 可 以 使 用 RESTful API 或 服务 化 模块 来 代 蔡 ， 这 样 模块 间 的 耦合 度 会 更 低 
HashMap<String, Double> queryClassificationResults 

= (HashMap<String, Double>) sser.nbqcsearch.predict (query); 


for (String cate : queryClassificationResults.keySet()) { 
double score = queryClassificationResults.get (cate); 
if (score < 0.02) continue; // 去 除 得 分 过 低 的 噪声 点 
sq.add("bq"，String.format ("category name: (%s^%f)", cate, score)); 
System.out.println (String.format ("category name: (%s^%f)", cate, score)); 


} 
// 获取 查询 结果 


response = sser.sseb.solrClient.query (sq); 
SolrDocumentList list = response.getResults(); 


// 这 里 略 去 后 续 统 一 文档 拼装 的 实现 


} catch (Exception ex) { 
ex.printStackTrace (); 


} 


return response.toString(); 




















参见 以 上 代码 的 加 粗 、 和 斜体 部 分 ， 主 要 是 根据 用 户 喜好 ， 增 加 了 对 分 类 、 品 牌 和 标签 关键 词 的 boost 排 序 。 为 了 保证 基本 的 相关 性 ， 这 里 boost 的 数值 通常 要 小 于 分 类 的 boost 数 值 ， 此 处 取 0.1。 基 于 
Elasticsearch 的 实现 ElasticSearchEnginePersonalized 的 方法 以 此 类 推 ， 加 粗 和 斜体 仍然 为 最 主要 的 改变 : 























private ElasticSearchEngineRelevant eser = null; 
public ElasticSearchEnginePersonalized (ElasticSearchEngineRelevant eser) { 


// 相关 性 搜索 引擎 不 变 


this.eser = eser; 


// 增加 了 用 户 画像 的 获取 模块 


UserProfile.init(); 
} 
public void cleanup() { 


eser.cleanup (); 


UserProfile.cleanup (); // 增加 了 用 户 画 像 的 资源 回收 
1 
// 索引 部 分 保持 不 变 


public String index (List<ListingDocument> documents, Map<String, Object> indexParams) { 
return eser.index (documents, indexParams); 
} 
// 查询 部 分 附加 上 个 性 化 的 逻辑 
public String query (Map<String, Object> queryParams, String userid) { 
// TODO Auto-generated method stub 
SearchResponse response = null; 
try { 
// 适 配 部 分 : 根据 输入 的 搜索 请 求 ， 生 成 Elasticsearch 所 能 识别 的 查询 
String indexName = queryParams.get ("index") .toString (); 


String typeName = queryParams.get ("type") .toString(); 
String query = queryParams.get ("query") .toString () 7 


String[] fields = (String []) queryParams.get ("fields"); 
int from = (int) (queryParams .get ("from")); 
int size = (int) (queryParams.get ("size")); 


String mode = queryParams.get ("mode") .上 toString () 7 
QueryBuilder qb = null; 


qb = QueryBuilders.boolQuery() 
.must (QueryBuilders.matchAllQuery () ) 7 


// 更 好 的 查询 构造 ， 采 用 AND 的 布尔 操作 ， 提 升 了 相关 性 
String[] terms = query.split("\\s+"); 
for (String term : terms) { 
qb = QueryBuilders.boolQuery () 
.must (qb) 
.filter (QueryBuilders.multiMatchQuery (term, fields)); 
} 


// 新 增 的 装饰 部 分 :根据 用 户 ID userid， 获 取 该 用 户 的 喜好 数据 
HashMap<String, String> Preference = 
(HashMap<String, String>) UserProfile.getPrefence("user profile", 


userid); 
// 对 于 分 类 的 喜好 程度 ， 通 过 category_name 字 段 的 boost 实 现 
if (preference.containsKey("categories")) { 


String[] categories = preference.get ("categories") .split("[, |,]"); 
for (String category : categories) { 
qb = QueryBuilders.boolQuery() 
.must (qb) 
.Should (QueryBuilgders.matchQuery ("category name", category). 
boost (0.1f)); 


} 
// 由 于 数据 有 限 ， 目 前 关于 品牌 的 喜好 是 通过 商品 的 标题 字段 listing_title 来 实现 的 


L 
if (preference.containsKey("brands")) { 
String[] brands = preference.get ("brands") .split("[, |,]"); 
for (String brand : brands) { 
qb = QueryBuilders.boolQuery() 
.must (qb) 
.Should (QueryBuilders.matchQuery ("listing title", brand). 
boost (0.1£)); 加 


} 
// 由 于 数据 有 限 ， 目 前 关于 标签 也 是 通过 商品 的 标题 字段 listing_title 来 实现 的 


if (preference.containsKey("tags")) { 
String[] tags = preference.get ("tags") .split("[, |,]"); 
for (String tag : tags) { 
qb = QueryBuildqers.boolQuery() 
.must (qb) 
.Should (QueryBuilders.matchQuery ("listing title", tag). 
Boost. (0 tr 


} 


// 之 前 的 装饰 部 分 ;通过 查询 分 类 的 结果 来 优化 相关 性 
// 如 下 这 行 可 以 使 用 RESTful API 或 服务 化 模块 来 代 蔡 ， 这 样 模块 间 的 耦合 度 会 更 低 


HashMap<String, Double> queryClassificationResults 
= (HashMap<String, Double>) eser.nbqcsearch.predict (query); 


for (String cate : queryClassificationResults.keySet()) { 
float score = queryClassificationResults.get (cate) .floatValue (); 


if (score < 0.02) continue; // 去 除 得 分 过 低 的 噪声 点 

qb = QueryBuilgders.boolQuery () 
.must (qb) 
.Should (QueryBuilders.matchQuery ("category name", cate) .boost 
(score)); 


// 获取 查询 结果 
response = eser.eseb.esClient .prepareSearch (indexName) .setTypes (typeName) 
.SetSearchType (SearchType .DEFAULT) 
.SetQuery (qb) 
.SetFrom (from) .setSize (size) 
.get (); 


// 这 里 略 去 后 续 统 一 文档 拼装 的 实现 
} catch (Exception ex) { 
ex.printStackTrace (); 


} 


return response.tostring(); 











最 后 ， 为 了 观察 个 性 化 排序 的 效果 ， 这 里 使 用 ElasticSearchEnginePersonalized 类 的 个 性 化 ， 写 了 一 段 测 试 代码 : 











public static void main (String[] args) { 
// TODO Auto-generated method stub 


// Elasticsearch 服 务 器 的 设置 ， 可 以 根据 你 的 需要 进行 设置 

Map<String, Object> serverParams = new HashMap<>() 
SerVerParams .Put ("server", new byte[]{ (byte)192, (byte)168,1,48}); 
serverParams .Put ("port", 9300); 








serverParams.put ("cluster", "ECommerce"); 
// 初始 化 三 个 基于 Elasticsearch 的 搜索 引擎 ， 一 个 是 基础 款 ， 一 个 是 相关 性 改善 后 的 ， 最 后 一 个 是 
// 个 性 化 的 


ElasticSearchEngineBasic eseb = new ElasticSearchEngineBasic (serverParams); 
ElasticSearchEngineRelevant eser = new ElasticSearchEngineRelevant (eseb); 
ElasticSearchEnginePersonalized esep = new ElasticSearchEenginePersonalized (eser); 


// 测试 查询 接口 

Map<String, Object> queryParams = new HashMap<>(); 

// 和 Solr 有 所 不 同 ， 需 要 在 这 里 指定 索引 和 类 型 

queryParams.put ("index", "listing new"); 

queryParams .Put ("type", "listing"); 

// 查询 关键 词 

queryParams .Put ("fields", new String[] {"listing title"}); 





queryParams .put ("from", 0); // 从 第 i 条 结果 记录 开始 
queryParams.put ("size", 10); // 返回 5 条 结果 记录 
queryParams .put ("mode", "BoolQuery"); // 选择 基础 查询 模式 


// 对 比 基 础 搜索 、 相 关 性 改善 后 的 搜索 ， 以 及 个 性 化 搜索 

String[] queries = {" 牛 奶 手机 "， "康师傅 "， "苹果 "}7 
LinkedHashMap<String, String> users = new LinkedHashMap<> () 7 
users.put ("user1l", " 张 三 "); 

users.put ("user2",，" 李 四 
users.put ("user3", "二 五 "); 
users.put ("user4", " 赵 六 "); 
for (String query : queries) { 















System.out .Println ("查询 一 " + query); 


queryParams .put ("query", query); 
System.out .Println ("基础 搜索 ; \t\t" + eseb.query (queryParams) ) 7 
System.out .println ("相关 性 改良 后 的 搜索 ;，\t" + eser.query (queryParams) ) ; 
for (String userid : users.keySet()) { 
System.out .Println (String.format ("%s 用 户 个 性 化 的 搜索 : \t%s"，users.get (userid)， 
esep.query (queryParams, userid))); 





} 


System. out .println (Mw 炎炎 六 炎 次 炎 大 交 炎 克 六 炎 克 大 炎 昌 ) > 
System.out .println(); 
E 


esep.cleanup (); 

















其 中 加 粗 斜体 是 主要 变化 的 部 分 ， 用 于 对 比 不 同 用 户 针对 同一 查询 的 结果 差异 。 完 整 的 代码 请 参看 下 述 项 目 : 














https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/SearchEnginelmplementation 


7.3.3 ”结果 对 比 























区 





运行 上 述 测试 代码 ， 将 进行 4 项 查询 : “牛奶 ” “手机 ”“ 康 师傅” 和“ 苹果”。 针 对 每 项 查询 ， 还 会 显示 针对 4 位 用 户 的 不 同 结果 ， 这 几 位 用 户 就 是 














7-4 中 的 张 三 、 李 四 、 王 五 和 赵 六 。 





首先 来 看 看 查询 “牛奶 ”的 结果 : 








userl 
张 三 用 户 个 性 化 的 搜索 : {"took":2, "timed out":false,"_ shards":{"total":3, 
"successful":3,"failed":0},"hits":{"total":1200, "max_score":1.897629, "hits": [{" index":"listing new"," type":"listing"," id":"AVn4ZarnHuEIFqIHDRiA","_ score":1.897629,"_ source" : 





由 于 老人 张 三 喜 爱 “ 光 明 ” 品 牌 ， 以 及 拥有 “老人 ”的 标签 ， 因 此 排名 靠 前 的 都 是 光明 牌 牛奶 和 老少 咸 宜 的 进口 全 脂 牛 奶 。 











ser2 
李 四 用 户 个 性 化 的 搜索 : {"took":3, "timed out":false,"_shards":{"total":3,"successful":3,"failed":0},"hits":{"total":1200, "max_score":3.7116764, "hits": [{"_ index":"listing new",™" 











白领 丽人 李 四 ， 喜 好 进口 牛奶 和 欧 德 堡 品牌 ， 因 此 搜索 结果 都 是 该 品牌 牛奶 排名 靠 前 。 

















user3 
王 五 用 户 个 性 化 的 搜索 : {"took" 要 :false,"_shards":{"total":3, 
"successful":3, "failed":0}, "hits":{"total":1200, "max_score":2.155753, "hits": [{" index":"listing new"," type":"listing"," id":"AVn4ZaroHuEIFqIHDRUuX","_ score":2.155753,"_source": 











对 于 小 学 生 王 五 ， 可 以 发 现 搜 索引 擎 返回 给 她 的 大 部 分 是 儿童 牛奶 。 





User4 
赵 六 用 户 个 性 化 的 搜索 : {"took":2, "timed out":false," shards":{"total":3, 
"successful":3,"failed":0},"hits":{"total":1200, "max_score":1.4331337, "hits": [{" index":"listing new"," type":"listing"," id":"AVn4ZarnHuEIFqIHDRgK","_score":1.4331337,"_source 








年 轻 人 赵 六 ， 由 于 对 于 牛奶 品类 及 其 相关 的 品牌 没有 特殊 偏好 ， 因 此 结果 和 普通 的 搜索 排序 一 致 。 








再 来 看 一 个 “手机 ”查询 的 例子 : 





userl 
张 三 用 户 个 性 化 的 搜索 : {"took":2, "timed out":false,"_ shards":{"total":3, 
"successful":3, "failed":0},"hits":{"total":1104, "max_score":2.317569, "hits":[{" index":"listing new"," type":"listing"," id":"AVn4ZarzHuEIFqIHDVLS","_ score":2.317569,"_source": 











由 于 具有 老年 人 的 标签 ， 张 三 搜索 的 时 候 将 看 到 更 多 的 老年 人 手机 。 








user2 
李 四 用 户 个 性 化 的 搜索 : {"took":2, "timed out":false,"_shards":{"total":3, 
"successful":3,"failed":0},"hits":{"total":1104, "max_score":2.4285016, "hits": [{" index":"listing new"," type":"listing"," id":"AVn4ZarzHuEIFqIHDVOL","_ score" :2.4285016, "source 





李 四 针对 手机 没有 特殊 偏好 ， 搜 索 结果 和 普通 排序 一 致 。 














user3 
王 五 用 户 个 性 化 的 搜索 : {"took":2, "timed out":false,"_shards":{"total";3, 
"successful":3,"failed":0},"hits":{"total":1104, "max_score":2.9928825, "hits": [{" index":"listing new"," type":"listing"," id":"AVn4ZarzHuEIFqIHDVOM","_ score" :2.9928825, "source 











王 五 看 到 了 更 多 的 学 生 和 儿童 手机 。 





user4 
赵 六 用 户 个 性 化 的 搜索 : {"took":2, "timed out":false,"_ shards":{"total":3, 
"successful":3,"failed":0},"hits":{"total":1104, "max_score":2.5713775, "hits": [{"_index":"listing new"," type":"listing"," id":"AVn4ZarzHuEIFqIHDVSD","_score":2.5713775,"_source 


庙 详 火灾 兴 溢 交 类 闪光 六 凡 六 次 交 炎 大 炎 六 六 闫 大 








赵 六 喜好 的 苹果 牌 手机 排名 更 靠 前 。 
由 于 篇 幅 关 系 ， 这 里 不 再 比较 剩 下 的 两 个 查询 的 例子 ， 如 果 你 感 兴趣 可 以 访问 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/PersonalizedSearchResults.txt 























整体 而 言 ， 每 位 用 户 的 兴趣 爱好 都 在 个 性 化 搜索 排序 中 得 到 了 一 定 的 体现 。 不 过 ， 刚 刚 已 经 提 及 ， 由 于 受到 测试 数据 的 限制 ， 因 此 品牌 和 其 他 标签 都 是 和 商品 的 标题 进行 匹配 的 。 然 而 在 现实 中 ， 这 样 
的 操作 通常 不 是 非常 精确 的 。 例 如 ， 品 牌 “ 苹 果 ” 这 一 词 本 身 就 是 具有 歧义 的 。 商 品 标题 中 的 “苹果 ” 极 有 可 能 是 水 果 的 一 种 品类 ， 也 可 能 是 电子 产品 的 某 个 品牌 。 所 以 ， 为 了 获取 更 好 的 效果 ， 在 实际 项 
目 中 应 该 通过 运营 和 技术 手段 ， 获 取 更 为 全 面 、 高 质 的 数据 。 例 如 ， 对 于 商品 而 言 ， 除 了 标题 和 分 类 信息 之 外 ， 还 应 该 具有 专门 的 品牌 、 导 购 属 性 等 数据 。 






























































“小 明 哥 ， 这 里 用 户 画像 你 是 直接 读 取 的 数据 库 ， 的 喜好 都 是 以 键 值 对 (Key-Value) 来 实现 的 。 那 么 是 否 可 能 和 查询 分 类 一 样 ， 使 用 监督 式 学 习 技术 来 解决 这 个 问题 呢 ?” 
































“很 好 的 问题 ， 答 案 当然 是 肯定 的 。 你 可 以 思考 一 下 ， 如 果 使 用 分 类 器 ， 应 该 怎样 进行 设计 和 实现 呢 ?” 








第 8 章 方案 设计 和 技术 选 型 : 搜索 分 片 


8.1 问题 分 析 
































“至 于 搜索 请 求 变 慢 的 情况 ， 主 要 是 由 于 某 些 设计 的 理念 和 方式 不 恰当 导致 的 。 当 商品 数量 和 用 户 访问 量 还 很 小 的 时 候 ， 也 许 问题 还 不 明显 。 但 是 随 着 业务 量 的 逐步 增 大 ， 原 来 不 是 问题 ， 或 者 只 是 小 
问题 的 问题 就 可 能 会 演变 为 严重 的 问题 。” 在 这 方面 小 明 也 颇 有 心得 ， 他 指出 ， 搜 索引 擎 通常 主要 包含 离线 索引 和 在 线 查 询 两 大 模块 ， 因 此 单 台 服务 器 的 优化 也 要 从 这 两 大 方面 入 手 。 






































先 来 看 索引 方面 ， 为 什么 要 简化 索引 ， 以 及 我 们 能 做 什么 。 从 第 4 章 有 关 搜 索 的 简介 可 以 看 出 ， 倒 排 索引 及 其 延伸 的 数据 结构 ， 对 于 信息 检索 系统 而 言 是 至 关 重 要 的 。 倒 排 索引 会 将 数据 对 象 包 含 关 键 词 
的 关系 转变 为 关键 词 到 对 象 本 身 的 关系 ， 大 幅 提升 了 查询 的 效率 。 可 是 ， 即 便 如 此 ， 设 计 者 也 不 应 该 放任 索引 的 规模 进行 不 必要 的 增长 。 因 为 过 大 的 索引 ， 是 不 可 能 完全 放 入 内 存 进行 缓存 的 ， 一 定 会 增加 
对 磁盘 的 访问 ， 那 么 较 慢 的 磁盘 /O 读 写 就 会 成 为 瓶 巴 ， 最 终 就 会 导致 查询 变 慢 。 特 别 是 对 于 多 次 排序 这 种 高 级 技术 ， 往 往 需要 从 索引 中 读 取 更 多 的 返回 记录 和 相关 字段 信息 ， 那 么 腑 肿 索引 所 产生 的 问题 就 
更 明显 了 。 为 了 有 效 地 为 倒 排 索引 瘦身 ， 常 用 的 建议 包括 如 下 几 点 。 
































“ 简化 倒 排 索引 的 内 容 ， 去 除 不 必 存 储 的 字段 。 刚 开始 使 用 Solr 和 Elasticsearch 的 开发 者 ， 因 为 担心 字段 的 内 容 没 有 进入 索引 ， 一 般 很 容易 产生 一 个 误区 ， 那 就 是 将 所 有 的 字段 都 进行 存储 。 这 样 做 的 好 
处 就 在 于 搜索 结果 返回 之 后 ， 可 以 随意 读 取 任 何 一 个 字段 ， 以 用 于 前 端的 展示 或 其 他 应 用 。 但 是 这 样 一 来 ， 索 引 的 大 小 就 很 难 控制 位 了 ， 所 以 对 于 每 个 字段 我 们 都 要 仔细 思考 ， 进 行 前 端 搜索 时 是 否 真 的 需 
要 读 取 这 个 字段 的 内 容 ? 例如 ， 在 第 4 章 使 用 Solr 的 时 候 已 经 有 所 提 及 ， 像 商品 自身 的 ID， 相 似 或 相关 的 其 他 商品 ID 等 ， 如 果 无 需 在 前 端 展示 ， 那 么 可 以 选择 stored=false， 不 进行 存储 。 选 择 indexed=true 就 能 
保证 其 被 搜索 到 。 当 然 ， 如 果菜 个 字段 既 不 会 被 读 取 ， 也 不 会 被 搜索 到 ， 那 么 干脆 就 去 掉 这 个 字段 的 定义 吧 。 





“ 合并 存储 字段 。 如 果 发 现存 储 的 一 些 字段 ， 总 是 同时 被 读 写 ， 那 么 可 以 考虑 将 这 些 内 容 合并 存储 到 同一 个 字段 中 ， 查 询 时 再 进行 必要 的 切 分 。 这 样 就 能 有 效 地 减少 索引 结构 中 字段 的 管理 开销 
(Overhead) 。Google 自 行 设计 的 Chunk 文 件 系 统 也 应 用 了 类 似 的 想法 。 


“ 利用 正 向 索引 ， 精 简 倒 排 索引 的 存储 量 。 当 然 ， 很 多 时 候 因为 业务 的 需要 ， 我 们 还 是 需要 存储 很 多 字段 的 ， 这 种 情况 下 应 该 如 何 处 理 呢 ? 一 种 有 效 的 方式 ， 是 将 仅 用 于 存储 而 不 做 索引 的 字段 ， 全 部 
放 入 数据 库 这 种 正 向 索引 中 ， 而 搜索 引擎 的 倒 排 索引 只 负责 索引 字段 。 这 样 ， 在 用 户 输入 关键 词 后 ， 可 以 利用 倒 排 索引 快速 获取 结果 的 ID， 然 后 再 根据 结果 的 ID 到 正 向 索引 里 获取 其 他 存储 内 容 。 对 于 这 种 
方案 ， 需 要 注意 的 是 优化 正 向 索引 读 取 的 速度 ， 如 果 正 向 索引 读 取 速 度 过 慢 ， 那 么 无 疑 会 拖累 整体 查询 的 速度 ， 适 得 其 反 。 此 时 ， 通 常会 利用 Redis 这 种 机 制 来 做 数据 库 的 缓存 ， 或 者 是 直接 构建 面向 服务 的 
应 用 模块 (SOA) ， 提 供 高 效 访问 正 向 索引 的 服务 ， 大 致 的 架构 如 图 8-1 所 示 。 
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图 8-1 正 向 和 倒 排 索引 切 分 后 的 搜索 架构 





要 想 切 分 正 向 和 倒 排 索引 ， 首 先 需要 找到 合适 的 均衡 点 。 如 果 索 引 还 不 够 大 ， 那 么 读 取 索 引 里 的 存储 字段 还 是 相当 快 的 。 相 反 ， 如 果 硬 要 将 其 切 分 成 正 向 和 倒 排 ， 那 么 只 会 增加 整体 的 访问 时 间 ， 而 且 
系统 也 不 易于 维护 。 常 见 的 情形 是 ， 当 单个 SolVElasticsearch 的 索引 达到 数 十 GB 的 时 候 ， 则 可 以 考虑 进行 切 分 。 当 然 还 要 结合 实际 情况 ， 进 行 实践 的 测试 再 做 最 后 的 决策 。 




















另 一 方面 ， 从 查询 入 手 ， 常 用 的 建议 包括 : 











“ 减少 动态 查询 。Solt 和 Elasticsearch 都 提供 了 很 强大 的 动态 查询 功能 ， 可 以 在 即时 查询 时 ， 动 态 地 进行 远 辑 判断 和 排序 。 虽 然 使 用 很 方便 ， 也 能 保证 数据 更 新 的 及 时 性 ， 但 是 对 性 能 的 损耗 比较 高 ， 因 
此 要 慎 用 。 


“ 尽量 使 用 过 滤 查 询 (Filter Query) 。 前 面 在 探讨 相关 性 的 时 候 ， 曾 提 到 普通 文本 搜索 引擎 的 打分 机 制 并 不 一 定 适合 所 有 的 应 用 场景 ， 有 的 时 候 也 许 我 们 只 想 知道 被 索引 的 数据 中 是 否 包含 某 个 限定 条 
件 〈 类 似 第 4 章 提 到 的 布尔 检索 模型 ) ， 这 时 候 ， 设 计 者 就 可 以 使 用 过 滤 查 询 ， 它 只 会 判断 查询 条 件 是 否 出 现 ， 而 不 会 根据 打分 公式 进行 复杂 的 计算 ， 也 能 提升 查询 的 效率 。 


“ 限制 结果 读 取 的 范围 。 对 于 大 型 的 搜索 引擎 ， 查 询 一 些 比较 宽泛 的 关键 词 或 条 件 时 ， 往 往 会 返回 大 量 的 结果 ， 如 果 遍 历 所 有 的 内 容 ， 那 将 是 非常 耗 时 的 ， 很 难 实现 在 线 服务 。 好 在 通常 情况 下 ， 我 们 
只 需要 向 用 户 返 回 前 若干 项 的 结果 [ 1。 但 是 ， 不 排除 有 网 络 爬 虫 或 恶意 的 黑客 会 逐 页 地 获取 结果 ， 这 可 能 会 对 搜索 系统 造成 无 法 预见 的 压力 。 这 也 是 目前 主流 的 搜索 引擎 ， 都 会 限制 用 户 只 能 访问 前 100 页 内 
容 的 原因 。 


“ 增 大 查询 、 文 档 、 切 面 / 聂 集 等 缓存 。 增 加 缓存 命中 率 对 于 搜索 结果 的 提速 有 着 明显 的 作用 ， 而 增加 命中 率 最 简单 直接 的 方式 就 是 加 大 缓存 容量 。 无 论 是 Solt 还 是 Elasticseatch， 常 见 的 缓存 包括 查询 、 
文档 和 切面 /聚集 等 方面 。 顾 名 思 义 ， 查 询 缓存 是 以 查询 为 单位 进行 缓存 的 ， 文 档 缓 存 是 以 文档 为 单位 进行 缓存 的 ， 切 面 /聚集 缓存 是 以 查询 的 切面 或 聚集 操作 为 单位 进行 缓存 的 。 不 过 ， 过 多 过 大 的 缓存 设 
置 会 消耗 大 量 的 内 存 。 


[中 研究 表明 ， 绝 大 部 分 用 户 只 会 关注 前 几 页 的 搜索 结果 。 


第 8 章 方案 设计 和 技术 选 型 : 搜索 分 片 


8.1 问题 分 析 























“至 于 搜索 请 求 变 慢 的 情况 ， 主 要 是 由 于 某 些 设计 的 理念 和 方式 不 恰当 导致 的 。 当 商品 数量 和 用 户 访问 量 还 很 小 的 时 候 ， 也 许 问题 还 不 明显 。 但 是 随 着 业务 量 的 逐步 增 大 ， 原 来 不 是 问题 ， 或 者 只 是 小 
问题 的 问题 就 可 能 会 演变 为 严重 的 问题 。” 在 这 方面 小 明 也 颇 有 心得 ， 他 指出 ， 搜 索引 警 通常 主要 包含 离线 索引 和 在 线 查 询 两 大 模块 ， 因 此 单 台 服务 器 的 优化 也 要 从 这 两 大 方面 入 手 。 









































先 来 看 索引 方面 ， 为 什么 要 简化 索引 ， 以 及 我 们 能 做 什么 。 从 第 4 章 有 关 搜 索 的 简介 可 以 看 出 ， 倒 排 索引 及 其 延伸 的 数据 结构 ， 对 于 信息 检索 系统 而 言 是 至 关 重 要 的 。 倒 排 索引 会 将 数据 对 象 包含 关键 词 
的 关系 转变 为 关键 词 到 对 象 本 身 的 关系 ， 大 幅 提升 了 查询 的 效率 。 可 是 ， 即 便 如 此 ， 设 计 者 也 不 应 该 放任 索引 的 规模 进行 不 必要 的 增长 。 因 为 过 大 的 索引 ， 是 不 可 能 完全 放 入 内 存 进行 缓存 的 ， 一 定 会 增加 
对 磁盘 的 访问 ， 那 么 较 慢 的 磁盘 /O 读 写 就 会 成 为 瓶 巴 ， 最 终 就 会 导致 查询 变 慢 。 特 别 是 对 于 多 次 排序 这 种 高 级 技术 ， 往 往 需要 从 索引 中 读 取 更 多 的 返回 记录 和 相关 字段 信息 ， 那 么 腑 肿 索引 所 产生 的 问题 就 
更 明显 了 。 为 了 有 效 地 为 倒 排 索引 瘦身 ， 常 用 的 建议 包括 如 下 几 点 。 


























“ 简化 倒 排 索引 的 内 容 ， 去 除 不 必 存 储 的 字段 。 刚 开始 使 用 Solr 和 Elasticsearch 的 开发 者 ， 因 为 担心 字段 的 内 容 没 有 进入 索引 ， 一 般 很 容易 产生 一 个 误区 ， 那 就 是 将 所 有 的 字段 都 进行 存储 。 这 样 做 的 好 
处 就 在 于 搜索 结果 返回 之 后 ， 可 以 随意 读 取 任 何 一 个 字段 ， 以 用 于 前 端的 展示 或 其 他 应 用 。 但 是 这 样 一 来 ， 索 引 的 大 小 就 很 难 控制 位 了 ， 所 以 对 于 每 个 字段 我 们 都 要 仔细 思考 ， 进 行 前 端 搜索 时 是 否 真 的 需 
要 读 取 这 个 字段 的 内 容 ? 例如 ， 在 第 4 章 使 用 Solr 的 时 候 已 经 有 所 提 及 ， 像 商品 自身 的 ID， 相 似 或 相关 的 其 他 商品 ID 等 ， 如 果 无 需 在 前 端 展示 ， 那 么 可 以 选择 stored= 色 se， 不 进行 存储 。 选 择 indexed=true 就 能 
保证 其 被 搜索 到 。 当 然 ， 如 果菜 个 字段 既 不 会 被 读 取 ， 也 不 会 被 搜索 到 ， 那 么 干脆 就 去 掉 这 个 字段 的 定义 吧 。 


“ 合并 存储 字段 。 如 果 发 现存 储 的 一 些 字段 ， 总 是 同时 被 读 写 ， 那 么 可 以 考虑 将 这 些 内容 合 并 存储 到 同一 个 字段 中 ， 查 询 时 再 进行 必要 的 切 分 。 这 样 就 能 有 效 地 减少 索引 结构 中 字段 的 管理 开销 
(Overhead) 。Google 自 行 设计 的 Chunk 文 件 系统 也 应 用 了 类 似 的 想法 。 


“ 利用 正 向 索引 ， 精 简 倒 排 索引 的 存储 量 。 当 然 ， 很 多 时 候 因为 业务 的 需要 ， 我 们 还 是 需要 存储 很 多 字段 的 ， 这 种 情况 下 应 该 如 何 处 理 呢 ? 一 种 有 效 的 方式 ， 是 将 仅 用 于 存储 而 不 做 索引 的 字段 ， 全 部 
放 入 数据 库 这 种 正 向 索引 中 ， 而 搜索 引擎 的 倒 排 索引 只 负责 索引 字段 。 这 样 ， 在 用 户 输入 关键 词 后 ， 可 以 利用 倒 排 索引 快速 获取 结果 的 ID， 然 后 再 根据 结果 的 ID 到 正 向 索引 里 获取 其 他 存储 内 容 。 对 于 这 种 
方案 ， 需 要 注意 的 是 优化 正 向 索引 读 取 的 速度 ， 如 果 正 向 索引 读 取 速 度 过 慢 ， 那 么 无 疑 会 拖累 整体 查询 的 速度 ， 适 得 其 反 。 此 时 ， 通 常会 利用 Redis 这 种 机 制 来 做 数据 库 的 缓存 ， 或 者 是 直接 构建 面向 服务 的 
应 用 模块 (SOA) ， 提 供 高 效 访问 正 向 索引 的 服务 ， 大 致 的 架构 如 图 8-1 所 示 。 
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图 8-1 正 向 和 倒 排 索引 切 分 后 的 搜索 架构 





要 想 切 分 正 向 和 倒 排 索引 ， 首 先 需要 找到 合适 的 均衡 点 。 如 果 索 引 还 不 够 大 ， 那 么 读 取 索 引 里 的 存储 字段 还 是 相当 快 的 。 相 反 ， 如 果 硬 要 将 其 切 分 成 正 向 和 倒 排 ， 那 么 只 会 增加 整体 的 访问 时 间 ， 而 且 
系统 也 不 易于 维护 。 常 见 的 情形 是 ， 当 单个 SolVElasticsearch 的 索引 达到 数 十 GB 的 时 候 ， 则 可 以 考虑 进行 切 分 。 当 然 还 要 结合 实际 情况 ， 进 行 实践 的 测试 再 做 最 后 的 决策 。 














另 一 方面 ， 从 查询 入 手 ， 常 用 的 建议 包括 : 

















:减少 动态 查询 。Solt 和 Elasticsearch 都 提供 了 很 强大 的 动态 查询 功能 ， 可 以 在 即时 查询 时 ， 动 态 地 进行 远 辑 判断 和 排序 。 虽 然 使 用 很 方便 ， 也 能 保证 数据 更 新 的 及 时 性 ， 但 是 对 性 能 的 损耗 比较 高 ， 因 
此 要 慎 用 。 


“ 尽量 使 用 过 滤 查 询 (Filter Query) 。 前 面 在 探讨 相关 性 的 时 候 ， 曾 提 到 普通 文本 搜索 引擎 的 打分 机 制 并 不 一 定 适合 所 有 的 应 用 场景 ， 有 的 时 候 也 许 我 们 只 想 知道 被 索引 的 数据 中 是 否 包含 某 个 限定 条 
件 〈 类 似 第 4 章 提 到 的 布尔 检索 模型 ) ， 这 时 候 ， 设 计 者 就 可 以 使 用 过 滤 查 询 ， 它 只 会 判断 查询 条 件 是 否 出 现 ， 而 不 会 根据 打分 公式 进行 复杂 的 计算 ， 也 能 提升 查询 的 效率 。 

“ 限制 结果 读 取 的 范围 。 对 于 大 型 的 搜索 引擎 ， 查 询 一 些 比较 宽泛 的 关键 词 或 条 件 时 ， 往 往 会 返回 大 量 的 结果 ， 如 果 遍 历 所 有 的 内 容 ， 那 将 是 非常 耗 时 的 ， 很 难 实现 在 线 服务 。 好 在 通常 情况 下 ， 我 们 
只 需要 向 用 户 返回 前 若干 项 的 结果 []。 但 是 ， 不 排除 有 网 络 爬 虫 或 恶意 的 黑客 会 逐 页 地 获取 结果 ， 这 可 能 会 对 搜索 系统 造成 无 法 预见 的 压力 。 这 也 是 目前 主流 的 搜索 引擎 ， 都 会 限制 用 户 只 能 访问 前 100 页 内 
容 的 原因 。 


“ 增 大 查询 、 文 档 、 切 面 / 聂 集 等 缓存 。 增 加 缓存 命中 率 对 于 搜索 结果 的 提速 有 着 明显 的 作用 ， 而 增加 命中 率 最 简单 直接 的 方式 就 是 加 大 缓存 容量 。 无 论 是 Solr 还 是 Elasticseatch， 常 见 的 缓存 包括 查询 、 
文档 和 切面 /聚集 等 方面 。 顾 名 思 义 ， 查 询 缓存 是 以 查询 为 单位 进行 缓存 的 ， 文 档 缓存 是 以 文档 为 单位 进行 缓存 的 ， 切 面 /聚集 缓存 是 以 查询 的 切面 或 聚集 操作 为 单位 进行 缓存 的 。 不 过 ， 过 多 过 大 的 缓存 设 
置 会 消耗 大 量 的 内 存 。 


中 研究 表明 ， 绝 大 部 分 用 户 只 会 关注 前 几 页 的 搜索 结果 。 


8.2 利用 搜索 的 分 片 机 制 





之 前 关于 索引 和 查询 的 优化 策略 ， 都 是 针对 单机 的 纵向 优化 。 不 过 ， 再 好 的 优化 策略 、 再 好 的 硬件 性 能 ， 都 是 有 其 瓶颈 的 。 大 数据 时 代 ， 是 离 不 开 横向 的 水 平 扩展 的 。 第 4 章 中 介绍 了 
Solr/Elasticsearch 的 分 片 索引 和 查询 机 制 。 可 以 知道 ,分 片 后 索引 的 尺寸 可 以 大 幅 降低 ， 并 且 可 以 进行 副本 备份 用 于 容 灾 。 这 里 列 出 图 8-2 和 图 8-3 的 流程 以 作 简 短 的 复习 。 





















































分 布 式 架构 的 实现 更 为 精细 ， 好 在 Solr 和 Elasticsearch 这 样 的 开源 系统 都 已 经 提供 了 比较 成 熟 的 方案 ， 对 应 用 开发 者 而 言 分 布 式 架构 都 是 透明 不 可 见 的 ， 通 常 不 用 关心 其 中 的 细节 。 不 过 ， 还 是 有 可 以 
优化 的 地 方 ， 那 就 是 分 片 的 策略 。 最 基础 的 分 片 策略 是 随机 式 的 ， 根 据 进来 的 数据 ID 哈 希 值 将 其 放 入 到 某 个 分 片上 。 其 优势 就 是 实现 简单 ， 无 需 过 多 的 额外 开发 。 不 过 ， 这 种 默认 的 分 片 方式 没有 根据 实际 
应 用 对 性 能 进行 优化 。 例 如 ， 大 宝 公司 的 O20 电 商 平台 ， 有 个 “2/8” 特 征 ， 就 是 80% 的 流量 集中 在 20% 的 热门 品类 上 。 基 于 此 ， 我 们 完全 可 以 根据 不 同 的 品类 来 进行 切 分 ， 这 样 做 的 好 处 有 如 下 几 点 。 


































































分 片 1 的 
副本 1 





副本 1 


Solr 机 器 人 


1. 索引 请 求 


2. 转发 索引 
请 求 到 相关 
的 其 他 机 器 Solr 机 器 C 国 Solr 机 器 D… 


Solr 机 器 B 








图 8-2 ”分 布 式 环境 中 分 发 索引 的 更 新 请 求 









1. 查询 请 求 
WI Solr 机 器 A 


2. 转发 查询 请 求 到 
相关 的 其 他 机 器 









的 查询 结 


查询 分 发 阶段 
—* Solr 机 颖 EE 


结果 合并 阶段 
-一 一 -人 一 


图 8-3 分布 式 环境 中 分 发 查询 的 请 求 ， 并 合并 查询 结果 


“ 对 于 类 目的 查询 ， 只 需要 访问 国定 的 分 片 ， 可 以 尽量 避免 查询 的 合并 ， 从 而 提升 响应 速度 。 
“ 对 于 热门 品类 ， 可 以 有 针对 性 地 部 署 额外 的 硬件 资源 。 而 对 于 访问 量 很 少 的 品类 ， 可 以 投入 更 少 的 硬件 资源 ， 以 节约 成 本 。 


“ 对 于 搜 词 的 查询 ， 由 于 其 结果 经 常 是 跨 品 类 的 ， 因 此 查询 合并 无 法 避免 。 不 过 ， 我 们 有 个 利器 可 以 有 效 地 降低 合并 的 次 数 ， 那 就 是 之 前 有 所 提 及 的 查询 分 类 。 例 如 ， 对 于 关键 词 “ 牛 奶 ”， 因 为 最 相 
关 的 分 类 都 是 食品 饮料 ; 对 于 关键 词 “ 女 装 ”， 因 为 最 相关 的 分 类 都 是 服饰 类 ， 因 此 它们 搜索 时 只 需要 访问 相关 品类 的 分 片 即 可 。 如 此 ， 不 仅 能 提高 查询 的 效率 ， 还 能 减少 不 相关 商品 的 出 现 ， 一 举 两 得 。 


























和 正 向 、 倒 排 索引 的 切 分 类 似 ， 是 否 要 做 分 布 式 的 分 片 和 副本 ， 要 依 实际 情况 而 确定 。 如 果 单机 的 软 硬 件 优化 后 ， 性 能 足够 高 ， 那 么 不 建议 使 用 分 布 式 架构 ， 因 为 这 样 会 导致 更 复杂 的 系统 架构 ， 延 长 
了 查询 的 周期 ， 并 且 会 导致 更 高 的 开发 和 维护 成 本 。 


8.3 ”案例 实践 
本 节 将 尝试 以 索引 的 分 片 和 基于 分 片 的 查询 ， 实 现 8.2 节 所 说 的 根据 不 同 的 品类 来 进行 索引 切 分 。 


8.3.1 ”Solr 路 由 的 实现 





首先 来 看 看 基于 Solr 的 实现 。 参 照 4.6.2 节 的 描述 ， 建 立 并 启动 Solr Cloud 和 集群。 然后 创建 分 布 式 collection， 名 为 listing_collection_withroute: 





[huangsean@iMac2015: /Users/huangsean/Coding] solr create -c listing collection withroute -d /Users/huangsean/Coding/listing new/conf/ -shards 3 -replicationFactor 2 -n listing 


{ 
"responseHeader":{ 
"otatus"0, 
"QTime":13828}, 
"success":{ 
"192.168.1.48:8983 solr":{ 
"responseHeader": { 
"status":0, 
"QTime":11898}, 
"Core":"listing collection withroute shardl replical"}, 
.168.1.78:8983_solr":{ 加 加 
"responseHeader":{ 
"status":0, 
"OTime":2695}, 
"core":"listing collection withroute shard3 replica2"}, 
.168.1.28:8983_solr":{ 加 ey 
"responseHeader":{ 
notatus"s0, 
"QTime":12614}, 
"core":"listing collection withroute shardl replica2"}}} 


"19 


DS 


"19: 


DL 








在 SearchEnginelmplementation 项 目的 SearchEngine.SearchEnginelmplementation.Solr 包 中 ， 新 建 类 SolrSearchEngineRelevantWithRoute。 这 里 的 大 体 思 路 和 SolrSearchEngineRelevant 一 

















致 ， 都 是 通过 查询 分 类 来 改善 相关 性 ， 唯 一 不 同 的 是 它 将 使 用 Solr 的 路 由 route 来 降低 需要 访问 的 索引 量 。 首 先 来 看 该 类 的 生成 : 

















protected SolrSearchEngineBasic sseb = null; 
protected NBQueryClassifierOnlineForSearch nbqcsearch = null; 
private HashMap<String, String> category2route = new HashMap<>(); 


public SolrSearchEngineRelevantWithRoute (SolrSearchEngineBasic sseb) { 


// 基本 的 搜索 引擎 不 变 


this.sseb = sseb; 


// 增加 了 查询 分 类 模块 


nbqcsearch = new NBQueryClassifierOnlineForSearch () 7 


// 初始 化 分 类 到 路 由 的 映射 
// 消费 电子 
category2route.put ("手机 "， 
category2route.put ("电脑 "， 
// 日 用 品 
category2route.put ("美发 护 发 "，"gaily"); 
category2route.put ("沐浴 露 "，"daily"); 
Category2route. 
Category2route. 
category2route. 


// 饮料 和 零食 

category2route.put ("坚果 "，"drinksnack")，; 
category2route.put ("巧克力 "，"drinksnack"); 
Category2route.put ("饼干 "，"drinksnack"); 
( 
( 








， "daily"); 
"gaily"); 





category2route.put ("饮料 饮品 "，"drinksnack"); 
category2route.put ("方便 面 "，"drinksnack"); 


// 生 鲜 和 干货 
Category2route.put 
Category2route.put 


("海鲜 水 产 "，"freshqdry") ; 
"新 鲜 水 果 "，"freshqdry"); 
Category2route. (" 纯 牛奶 "，"freshdry") 7 
category2route.put ("进口 牛奶 "，"freshdry"); 
category2route.put (" 惠 类 "，"freshdry"); 
category2route.put ("茶叶 "，"freshdry"); 

















加 粗 斜体 是 新 增 的 逻辑 ， 根 据 商品 的 分 类 。 设 置 路 由 的 名 称 。 在 Solr 中 ， 可 以 通过 在 文档 的 ID 前 加 上 特殊 的 前 缀 ， 指 定 其 应 该 去 往 的 分 片 。 例 如 ， 对 于 以 下 商品 : 








22785 samsung 三 星 galaxy tab3 t211 1g 8g wifi+3g 可 通话 平板 电脑 gps 300 万 像素 白色 15 电脑 

















其 商品 ID 是 “22785” ， 而 其 所 属 的 路 由 则 被 定义 为 “ce” ， 因 此 1D 就 应 该 被 改 为 “ce! 22785”。 创 建 索引 的 时 候 ，Solr 就 会 根据 这 个 前 缀 ， 自 动 地 将 该 商品 分 配 到 ce 所 在 的 分 片 ， 保 证 所 有 消费 电 
子 类 的 商品 都 位 于 同一 个 分 片上 。 目 前 Solr 最 多 支持 两 层 这 样 的 前 缀 ， 例 如 “listing! ce! 22785”。 为 了 实现 这 个 目的 ， 我 们 需要 改写 index 函 数 : 












































// 索引 部 分 加 入 了 route 路 由 机 制 
public String index (List<ListingDocument> documents, Map<String, Object> indexParams) { 


UpdateResponse response = null; 
try { 
// 适 配 部 分 : 根据 输入 的 统一 文档 ListingDocument， 生 成 并 添加 Solr 所 使 用 的 SolrInputDocument 


for (ListingDocument ld : documents) { 
SolrIinputDocument sid = new SolrIinputDocument () 7 


// 创建 索引 时 为 路 由 加 入 定制 的 前 级 ， 这 里 使 用 category2route 中 的 定义 ， 包 括 ce、daily、 
drinksnack 和 freshdry 

sid.addField("listing id", String.format("%s!%s", category2route.get (ld. 
getCategory_ name () ) , ld.getListing id() 站 这 


// 其 他 字段 不 变 

sid.addField("listing title", ld.getListing title()); 
sid.addField ("category id", ld.getCategory 1d()); 
sid.addField ("category name", ld.getCategory name()); 


sseb.solrClient .add (sid); 
} 


// 写 入 Solr Cloud 的 索引 
response = sseb.solrClient.commit () 7 


} catch (Exception e) { 
// TODO: handle exception 
e.printstackTrace (); 

} 


return response.toString(); 























其 中 最 为 关键 的 变化 部 分 是 以 加 粗 斜 体 的 形式 标 出 的 那 部 分 代码 。 由 于 此 时 使 用 DIH 不 够 灵活 ， 所 以 这 里 采用 如 下 一 段 代 码 进行 索引 : 


























public void indexListing (String file, Map<String, Object> indexParams) { 
ArrayList<ListingDocument> documents = new ArrayList<>(); 
try { 


// 读 取 原 始 Listing 商 品 数据 文件 ， 拼 装 ListingDocument 
BufferedReader br = new BufferedReader (new FileReader (file)); 
String strLine = null; 
while ((strLine = br.readLine()) != null) { 

String[] tokens = strLine.split("\t"); 


ListingDocument 1d = new ListingDocument (Long.parseLong (tokens[0])， 
tokens[1], 
Long.parseLong (tokens[2]), tokens[3]); 
documents.add (1d); 
} 


br.close(); 


System.out.println("start to indexhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/..."); 
this.index (documents, indexParams); 
System.out .println ("finished"); 


} catch (Exception e) { 
// TODO: handle exception 
e.printstackTrace (); 














该 函数 读 取 的 是 之 前 采用 的 listing-segmented-shuffled-noheadertxt。 完 成 基于 路 由 的 索引 之 后 ， 还 需要 有 对 应 的 基于 路 由 的 查询 : 














// 查询 部 分 附加 上 相关 性 ， 以 及 基于 路 由 的 逻辑 


public String query (Map<String, Object> queryParams) { 
// TODO Auto-generated method stub 


// 


QueryResponse response = null; 


try 


{ 


// 适 配 部 分 : 根据 输入 的 搜索 请 求 ， 生 成 Solz 所 能 识别 的 查询 
String query = queryParams .get ("query") .toString () 7 
String[] terms = query.split("\\s+"); 

StringBuffer sbQuery = new StringBuffer () 7 

for (String term : terms) { 


} 


if (sbQuery.length() == 0) { 
ee: append (term); 

} else 
// 和 了 确保 相关 性 ， 使 用 了 AND 的 布尔 操作 
sbQuery.append (" AND ") .append (term); 


String[] fields = (String []) queryParams.get ("fields"); 
StringBuffer sbQf = new StringBuffer(); 
for (String field : fields) { 


} 
A 


if (sbQf.length() == 0) { 
2 append (field); 
} else 
0/ 在 多 个 字段 上 查询 
sbQf .append (" ") .append (field) 


为 支持 翻 页 (pagination) 操作 的 起 始 位 置 和 返回 结果 数 


int start = (int) (queryParams .get ("start")); 
int rows = (int) (queryParams .get ("rows")); 


// 


构建 Solr 使 用 的 查询 


SolrQuery sq = new SolrQuery(); 


Sq. 
Sq. 
sq. 
sq. 
sq. 
sq. 


// 
// 


setParam("defType", "edismax"); 

set (" ne 人 

set ("fq", sbQuery.tostring()); // 使 用 过 滤 查 询 

set(" a SbQf .toString () ) 7 
(" 
(" 


set tart”, start); 
set ("rows", rows); 
原 有 的 装饰 部 分 : 通过 查询 分 类 的 结果 来 优化 相关 性 


如 下 这 行 可 以 使 用 RESTful API 或 服务 化 模块 来 代 蔡 ， 这 样 模块 间 的 耦合 度 会 更 低 


HashMap<String, Double> queryClassificationResults 


// 


= (HashMap<String, Double>) nbqcsearch.predict (query); 
由 于 路 由 数量 少 ， 查 找 快 ， 所 以 routes 没 有 使 用 哈 希 表 


ArrayList<String> routes = new ArrayList<>(); 
StringBuffer sbRoutes = new StringBuffer(); 


for (String cate : queryClassificationResults.keySet()) { 
double score = queryClassificationResults.get (cate) 
if (score < 0.02) continue; // 去 除 得 分 过 时 依 的 吕 声 
sq.add("bq"，String.format ("category name: (%s^%f)", cate, score)); 


// 新 增 的 装饰 部 分 ， 根 据 分 类 获取 所 有 路 由 route 
String route = category2route.get (cate); 
if (!routes .contains (route)) { 
routes.add (route); 
sbRoutes .append (route) .append (™!,"); 
} 


System.out .println (String.format ("category name: (%s^%f)", cate, score)); 


// 


sq. 


// 


新 增 的 装饰 部 分 ， 根 据 分 类 指定 route 
agdd("_route ", sbRoutes.toString()); 


获取 查询 结果 


response = sseb.solrClient .query (sq); 
SolrDocumentList list = response.getResults(); 


// 这 里 略 去 后 续 统 一 文档 拼装 的 实现 


} catch (Exception ex) { 


} 


ex. 


PrintStackTrace (); 


return response.tosString(); 




















其 中 的 关键 修改 请 参见 加 粗 斜 体 部 分 ， 我 们 根据 查询 分 类 的 结果 ， 挑 选 主 要 相关 的 分 类 ， 并 将 其 加 入 搜索 的 route 参数 。 例 如 ， 这 里 和 “ 米 ”最 可 能 相关 的 分 类 是 “大 米 ”“ 饼 干 ” 和 “巧克力 ”， 那 





么 路 由 参数 设置 为 route_=daily! ，drinksnack! 。 最 后 就 是 进行 测试 : 





public static void main (String[] args) { 


测试 的 过 程 


// 
// 


TODO Auto-generated method stub 


连接 Solr Cloud 的 ZooKeeper 设 置 ， 可 以 根据 你 的 需要 进行 设置 


Map<String, Object> serverParams = new HashMap<>(); 
serverParams.put ("zkHost", "192.168.1.48:9983"); 


// 


查询 读 取 哪个 collection， 可 以 根据 你 的 需要 进行 设置 。 


serverParams.put ("collection", "listing collection withroute"); 


// 


创建 基本 款 搜索 引擎 


SolrSearchEngineBasic sseb = new SolrSearchEngineBasic (serverParams); 


// 


使 用 装饰 器 模式 设计 的 新 搜索 引擎 


SolrSearchEngineRelevantWithRoute sserr 


// 


= new SolrSearchEngineRelevantWithRoute (sseb); 


测试 基于 路 由 的 索引 


sserr.indexListing("/Users/huangsean/Coding/data/BigDataArchitectureAnd 
Algorithm" + "/listing-segmented-shuffled-noheader.txt", serverParams); 


Map<String, Object> queryParams = new HashMap<>(); 


// 


查询 关键 词 


queryParams .put ("query"，" 米 "); 
queryParams .put ("fields", 


new String[] {"listing title"}); 


queryParams .Put ("start", 0); // 从 第 1 条 结果 记录 开始 
queryParams .Put ("rows", 5); // 返回 5 条 结果 记录 
// 对 比 相关 性 改善 前 后 


System.out .Println (" 基 础 搜索 ，\tNtNt" + sseb.query (queryParams) ) 7 
System.out .Println(" 相 关 性 改良 、 路 由 的 搜索 ，\t" + sserr.query (queryParams)); 


sseb.cleanup () 
sserr.cleanup (); 








主要 是 进行 一 次 基于 路 由 的 索引 ， 然 后 对 比 两 次 搜索 。 需 要 注意 的 是 ， 由 于 我 们 并 未 在 schema 中 设置 商品 文档 的 listing_id 是 唯一 的 ， 因 此 索引 函数 只 能 执行 一 次 ， 否 则 将 会 产生 元 余 的 索 























引 数据 。 而 两 次 对 比 查询 ， 第 一 次 是 没有 使 用 路 由 的 基本 查询 ， 系 统 搜索 了 全 部 的 分 片 ; 第 二 次 系统 根据 查询 分 类 的 相关 性 ， 使 用 路 由 ， 只 搜索 最 相关 的 分 片 。 如 下 代码 为 测试 查询 “ 米 ” 的 情况 ， 可 以 看 








到 , 使 














基 而 


搜索 : 























基于 路 由 的 搜索 后 ， 命 中 的 文档 数量 (numFound) 从 3119 降 低 到 了 2103。 


{responseHeader={zkConnected=true, status=0,QTime=18, params={q= 米 , defType=edismax,_stateVer =listing collection withroute:51,qf=listing title, start=0, rows=5 


加 载 扩展 词典 : ext .dic 
载 扩 展 停止 词典 : stopword.dic 


加 储 止 词 
相关 性 改良 、 基 于 路 由 的 搜索 : {responseHeader={zkConnected=true, status=0,QTime=21,params={q=*:*, defType=edismax, stateVer =listing collection withroute:51,qf=listing title, start: 
response={numFound=2103, start=0, maxScore=3.5897655, docs=[SolrDocument{1isting id=[daily!18569]，1isting title=golden delight 金 悟 泰国 茉莉 香 米 5kg 泰国 进口 ，category_name= 大 米 

















8.3.2 ”Elasticsearch 路 由 的 实现 


参照 4.6.3 节 ， 拱 建 Elasticsearch 的 集群 ， 并 创建 名 为 listing_new_withroute 的 索引 ， 分 片 和 字段 的 设置 与 之 前 保持 一 致 。 就 绪 之 后 ， 就 可 以 着 手 编写 相应 的 Java 代 码 了 ， 通 过 Elasticsearch 客 户 端 来 进 


行 基于 路 由 的 索引 和 查询 。 





在 SearchEngine.SearchEnginelmplementation.Elasticsearch 包 中 ， 创 建新 的 ElasticSearchEngineRelevantWithRoute 类 ， 将 在 保证 相关 性 的 基础 上 ， 进 行 基于 路 由 的 搜索 。 其 分 类 和 路 由 的 映射 软 

















辑 与 Solr 实 现 是 一 致 的 ， 索 引 和 查询 的 路 由 设置 原理 也 相似 ， 只 是 具体 的 语法 有 所 不 同 。 首 先 来 看 索引 中 不 同 的 部 分 ， 已 


























加 粗 斜 体 表示 : 





// 索引 部 分 加 入 了 route 路 由 机 制 


public String index (List<ListingDocument> documents, Map<String, Object> indexParams) 


IndexResponse response = null; 


// 适 配 部 分 : 根据 输入 的 统一 文档 ListingDocument， 生 成 并 添加 Elasticsearch 所 使 用 的 HashMap 


for (ListingDocument ld : documents) { 


String indexName = indexParams.get ("index") .toString(); 
String typeName = indexParams .get ("type") .toString (); 


Map<String, Object> fieldsMap = new HashMap<>(); 
fieldsMap.put ("listing id", ld.getListing id()); 


fieldsMap.put ("listing title", ld.getListing title()); 


"category_id", ld.getCategory id())7 


( 
fieldsMap.put ( 
("category name", ld.getListing id()); 


fieldsMap.put 
// 写 入 集群 的 索引 ， 增 加 路 由 的 设置 


response = eseb.esClient .prepareIndex (indexName, typeName) 
.SetRouting (category2route.get (ld.getCategory name () ) ) 


.SetSource (fieldsMap) 
.get (); 


} 


return response.toString(); 





进行 一 次 查询 ,测试 路 由 索引 的 效果 : 


http:WiMac2015: 9200/listing_new_withroute/listing/_search?q= 苹 果 





你 将 得 到 类 似 图 8-4 的 结果 ， 图 中 方 框 标 出 的 地 方 ， 展 示 了 文档 的 路 由 。 























"hits": { 
"total": 4748, 
"max_score": 9.845659, 
"hits": [ 
{ 
"_index": "listing_new_withroute", 
"type": "listing", 
"_id": "AVozhK_pWZfI2Z59cHaq"， 
"_score": 9.845659 
"_routing": "drinksnack", 
"listing_title": " 茹 梦 清纯 苹果 苹果 口味 11 瓶 "， 
"category_name": 8101, 
"listing_id": 8101， 
"category_id": 7 


}, 

{ 
"_index": "listing_new_withroute", 
"type": "listing", 
"_id": "AVozhJxWWZfI2Z59cEQKk", 


ce 


OU 
"listing_title": "苹果 apple 苹果 ipad 5 16gb wifi ipad air"， 
"category_name": 21335， 
"listing_id": 21335， 
"category_id": 15 


"_index": "listing_new_withroute", 

"type": "listing", 

"_id": "AVozhKFPWZfI2Z59cFC-", 

"_score": 9.502171， 

"_routing": "ce", 

"_source": { 
"listing_title": "苹果 apple ipad air 苹果 平板 retina 屏 wifi 版 16g 9.7 英 寸 苹果 电脑 ipadair"， 
"category_name": 22271， 
"listing_id": 22271, 
"category_id": 15 

} 

}, 





图 8-4 ”Elasticsearch 的 搜索 结果 中 直接 展示 了 每 篇 文档 的 路 由 


最 后 来 看 看 查询 部 分 的 代码 有 何不 同 : 





// 查询 部 分 附加 上 相关 性 ， 以 及 基于 路 由 的 逻辑 
public String query (Map<String, Object> queryParams) { 
// TODO Auto-generated method stub 


SearchResponse response = null; 

try { 
// 适 配 部 分 : 根据 输入 的 搜索 请 求 ， 生 成 Elasticsearch 所 能 识别 的 查询 
String indexName = queryParams.get ("index") .上 toString (); 


String typeName = queryParams.get ("type") .toString (); 
String query = queryParams.get ("query") .toString () 7 


String[] fields = (String []) queryParams.get ("fields"); 
int from = (int) (queryParams.get ("from")); 
int size = (int) (queryParams.get ("size")); 


String mode = queryParams.get ("mode") .toString(); 
QueryBuilder qb = null; 


qb = QueryBuilders.boolQuery () 
.must (QueryBuilders.matchAllQuery ()); 


// 更 好 的 查询 构造 ， 采 用 AND 的 布尔 操作 ， 以 提升 相关 性 
String[] terms = query.split("\\s+"); 
for (String term : terms) { 
qb = QueryBuilders.boolQuery () 
.must (qb) 
.filter (QueryBuilders.multiMatchQuery (term, fields)); 


// 新 增 的 装饰 部 分 ， 通过 查询 分 类 的 结果 来 优化 相关 性 
// 如 下 这 行 可 以 使 用 RESTful API 或 服务 化 模块 来 代 蔡 ， 这 样 模块 间 的 看 合 度 会 更 低 
HashMap<String, Double> queryClassificationResults 

= (HashMap<String, Double>) nbqcsearch.predict (query); 


RrrayList<String> routing = new ArrayList<>(); 


for (String cate : queryClassificationResults.keySet()) { 
float score = queryClassificationResults.get (cate) .floatValue () 7 
if (score < 0.02) continue; // 去 除 得 分 过 低 的 噪声 点 


qb = QueryBuilders.boolQuery () 
.must (gqb) 


.Should (QueryBuilders.matchQuery ("category name", cate) .boost (score)); 


String route = category2route.get (cate); 
if (!routing.contains (route)) { 
routing.add (route); 


} 


String[] routes = (String[]) routing.toArray (new String[routing.size()]); 


// 获取 查询 结果 

response = eseb.esClient .prepareSearch (indexName) .setTypes (typeName) 
.SetRouting (routes) 
.SetSearchType (SearchType .DEFAULT) 
.SetQuery (gqb) 
.SetFrom (from) .setSize (size) 
:get () 7 


// 这 里 略 去 后 续 统 一 文档 拼装 的 实现 


} catch (Exception ex) { 


} 


ex.printStackTrace (); 


























从 中 可 以 看 出 ,与 Solr 一 样 ，Elasticsearch 在 索引 和 查询 时 的 路 由 设置 都 是 非常 直观 和 简洁 的 。 测 试 一 下 查询 “苹果 ”， 你 也 可 以 看 到 使 用 路 由 后 ,搜索 请 求 只 会 去 往 更 相关 的 分 片 ， 查 询 结果 变 少 : 























基础 搜索 : {"took":4,"timed out":false," shards":{"total":5,"successful":5,"failed":0}, "hits":{"total":352, "max score":8.617233, "hits": [{" index":"]listing new withroute", 
加 载 扩展 词典 : ext .dic 一 BE 证 本 new 1 
加 载 扩 展 停 止 词典 : stopword.dic 
相关 性 改良 、 基 于 路 由 的 搜索 : {"took":3,"timed out":false,"_shards":{"total":2,"successful":2,"failed":0},"hits":{"total":309, "max score":1.0,"hits":[{" index":"listing new with: 





同样 ， 所 有 的 示例 代码 位 于 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/SearchEnginelmplementation 
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搜索 架构 和 排序 相关 性 的 改良 暂时 告 一 段落 。 这 时 ， 小 丽 提出 的 “搜索 下 拉 框 没有 任何 提示 ” 
的 功能 ， 它 对 输入 的 关键 字 进 行 预测 和 建议 ， 不 仅 可 以 避免 用 户 输入 错误 的 搜索 词 ， 而 且 还 可 以 将 它们 引导 至 相关 的 搜索 上 ， 在 一 定 程度 上 减少 了 人 为 的 工作 量 。 大 宝 花 了 一 段 时 间 ， 研 究 了 其 他 同行 的 搜 




















的 需求 ， 就 成 为 当下 需要 攻克 的 首 个 目标 。 实 际 上 ， “搜索 的 自动 提示 /自动 完成 ”是 搜索 引擎 的 一 个 常见 

















索 提 示 ， 从 


“相关 


“ 相关 商品 分 类 : 例如 ， 用 户 输入 “咖啡 ”这 个 关键 词 后 ， 和 “咖啡 ”相关 的 分 类 都 会 显示 出 来 包括“ 速溶 咖啡 ” 


图 9-1 所 示 的 例子 中 可 以 看 出 ， 自 动 提示 主要 分 为 两 大 功能 。 














查询 : 例如 ， 用 户 输入 “咖啡 ”这 个 关键 词 后 ，“ 迷 溶 咖 啡 ”“ 惟 全 咖啡 ”等 用 户 常常 输入 的 相关 查询 都 会 显示 出 来 。 














“进口 速溶 咖啡 ”和 “咖啡 饮料 ”。 


此 外 ， 有 些 做 得 比较 成 熟 的 搜索 建议 功能 ， 还 能 容忍 一 定 范围 的 错 拼 : 例如 ， 用 户 错误 地 输入 了 “apple” ， 系 统 仍然 会 提示 和 “apple” 相 关 的 建议 ， 等 等 。 


“小 明 哥 ， 我 最 近 也 研究 了 Solr 和 Elasticsearch 的 功能 ， 好 像 它 们 可 以 直接 支持 这 个 









































“ 哦 ， 是 吗 ? 你 说 说 看 。” 


自动 提示 的 功能 。” 


“Solr 从 1.x 开 始 就 提供 了 搜索 建议 (Suggest) 和 拼写 纠 错 (Spellcheck) 的 功能 。 搜 索 建议 模块 可 选择 基于 提示 词 文本 做 搜索 建议 ， 还 支持 通过 针对 索引 的 某 个 字段 建立 索引 词 库 做 搜索 建议 。 类 似 














“ 咽 ， 


























相当 不 错 的 调研 啊 ! 好 ， 那 我 们 先 开始 尝试 一 下 这 些 功 能 ， 看 看 效果 如 何 。” 


























也 ， 拼 写 纠 错 模块 可 根据 提示 词 文 本 或 被 索引 的 字段 ， 对 用 户 错误 的 拼写 进行 提示 。 而 Elasticsearch 的 搜索 建议 和 拼写 纠 错 是 由 不 同类 型 的 建议 器 (Suggester) 实现 的 。 如 果 具 体 到 咱们 的 案例 ， 可 以 使 
商品 标题 的 数据 来 完成 相应 的 功能 。” 


































C， 咖 吓 


咖啡 
在 速溶 咖啡 分 类 中 搜索 
- ”在 进口 速溶 咖啡 分 类 中 搜索 机 Te 食 
在 咖啡 饮料 分 类 中 搜索 


1at) 摩卡 


超级 (Super) 
白 咖 啡 


非 
咖啡 饮料 


提纯 咖啡 


和 “咖啡 ” 相关 、 用 户 可 能 
摩卡 咽 时 输入 的 查询 。 








咖啡 奶 
量 炙 装 咖 嘲 
咖啡 味 






图 9-1 搜索 下 拉 的 自动 提示 功能 


第 9 章 方案 设计 和 技术 选 型 : 搜索 提示 


9.1 ”问题 分 析 





搜索 架构 和 排序 相关 性 的 改良 暂时 告 一 段落 。 这 时 ， 小 丽 提出 的 “搜索 下 拉 框 没有 任何 提示 ”的 需求 ， 就 成 为 当下 需要 攻克 的 首 个 目标 。 实 际 上 ， “搜索 的 自动 提示 /自动 完成 ”是 搜索 引擎 的 一 个 常见 
的 功能 ， 它 对 输入 的 关键 字 进 行 预测 和 建议 ， 不 仅 可 以 避免 用 户 输入 错误 的 搜索 词 ， 而 且 还 可 以 将 它们 引导 至 相关 的 搜索 上 ， 在 一 定 程度 上 减少 了 人 为 的 工作 量 。 大 宝 花 了 一 段 时 间 ， 研 究 了 其 他 同行 的 搜 












































索 提示 ， 从 图 9-1 所 示 的 例子 中 可 以 看 出 ， 自 动 提示 主要 分 为 两 大 功能 。 








“ 相关 查询 : 例如 ， 用 户 输入 “咖啡 ”这 个 关键 词 后 ，“ 束 溶 咖 啡 ”“ 管 寻 咖啡 ”等 用 户 常常 输入 的 相关 查询 都 会 显示 出 来 。 


“ 相关 商品 分 类 : 例如 ， 用 户 输 入 “咖啡 ”这 个 关键 词 后 ， 和 “咖啡 ”相关 的 分 类 都 会 显示 出 来 ， 包 括 “速溶 咖啡 ”“ 进 口 速溶 咖啡 ”和 “咖啡 饮料 ”。 











此 外 ， 有 些 做 得 比较 成 熟 的 搜索 建议 功能 ， 还 能 容忍 一 定 范围 的 错 拼 : 例如 ， 错误 地 输入 了 “apple” ， 系 统 仍然 会 提示 和 “apple” 相 关 的 建议 ， 等 等 。 




















“小 明 哥 ， 我 最 近 也 研究 了 Solr 和 Elasticsearch 的 功能 ， 好 像 它们 可 以 直接 支持 这 个 自动 提示 的 功能 。” 




















“ 哦 ， 是 吗 ? 你 说 说 看 。” 


“Solr 从 1.x 开 始 就 提供 了 搜索 建议 (Suggest) 和 拼写 纠 错 (Spellcheck) 的 功能 。 搜 索 建议 模块 可 选择 基于 提示 词 文本 做 搜索 建议 ， 还 支持 通过 针对 索引 的 某 个 字段 建立 索引 词 库 做 搜索 建议 。 类 似 
地 ， 拼 写 纠 错 模块 可 根据 提示 词 文本 或 被 索引 的 字段 ， 对 用 户 错误 的 拼写 进行 提示 。 而 Elasticsearch 的 搜索 建议 和 拼写 纠 错 是 由 不 同类 型 的 建议 器 (Suggester) 实现 的 。 如 果 具 体 到 咱们 的 案例 ， 可 以 使 



































商品 标题 的 数据 来 完成 相应 的 功能 。” 





“ 嗯 ， 相 当 不 错 的 调研 啊 ! 好 ， 那 我 们 先 开始 尝试 一 下 这 些 功能 ， 看 看 效果 如 何 。” 





咖 叶 
在 速溶 咖啡 分 类 中 搜索 

-在 进口 速溶 咖啡 分 类 中 搜索 he 全 
在 咖啡 饮料 分 类 中 搜索 


1at) 摩卡 


超级 (Super) 
白 咖 啡 


# 
咖啡 饮料 
提纯 咖啡 






和 “咖啡 ” 相关 、 用 户 可 能 
摩卡 咽 时 输入 的 查询 。 


咖啡 奶 
量 炙 装 咖 嘲 
咖啡 味 








图 9-1 搜索 下 拉 的 自动 提示 功能 


9.2 ”案例 实践 : 基础 方案 


9.2.1 Solr 搜索 建议 和 拼写 纠 错 的 实现 


在 Solr 中 无 论 是 定义 建议 器 ， 还 是 拼写 纠 错 器 (Spellchecker) ， 都 需要 定义 如 下 两 个 对 象 。 

“一 个 Component 组 件 。 

“ 一 个 Handler 处 理 器 。Solr 的 组 件 需要 绑 定 在 处 理 器 上 执行 ， 在 处 理 器 被 调用 的 时 候 ， 系 统 会 触发 其 上 的 组 件 一 并 执行 。 
针对 建议 器 ， 我 们 在 

/Users/huangsean/Coding/solr-6.3.0/server/solr/listing_ new/conf/solrconfig.xml 文 件 


中 定义 了 一 个 searchComponent 组 件 和 一 个 requestHandler 处 理 器 : 





<!-- 搜索 建议 (Suggest) 的 配置 --> 
<!-- "建议 “组 件 的 配置 --> 
<searchComponent name="suggest" class="solr.SuggestComponent"> 
<str name="queryAnalyzerFieldType">text chinese</str> <!-- 使 用 schema 文 件 中 配置 的 IK 分 词 字段 类 型 --> 
<lst name="suggester"> ee 
<str name="name">listingSuggester</str> 
<str name="]lookupImpl">FuzzyLookupFactory</str> <!-- 模糊 查询 ， 其 他 选项 参见 官网 的 介绍 --> 
<str name="suggestAnalyzerFieldType">string</str> 
<str name="field">listing title</str> <!-- 创建 "建议 “的 数据 源 字 段 ， 必 须 是 存储 的 字段 store="true" --> 
<str name="buildonCommit">true</str> <!-- 提 交 索 引 更 新 后 ， 重 建 suggester 的 数据 结构 --> 








</lst> 
</searchComponent> 


<!-- "建议 “请 求 的 配置 --> 
<requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy"> 
<lst name="defaults"> 
<str name="suggest">true</str> 
<str name="suggest .dictionary">listingSuggester</str> <!-- 指向 上 面 定义 的 suggester --> 
<str name="suggest.count">10</str> <!-- 返回 "建议 “的 数量 --> 
</lst> 
<arr name="components"> 
<str>suggest</str> <!-- 绑 定 suggest 组 件 和 /suggest 请 求 处 理 器 --> 
</arr> 
</requestHandler> 








由 





其 中 最 关键 的 是 ， 我 们 指定 了 建议 词 都 来 自 listing_ title 这 个 字段 的 分 词 ， 所 以 需要 确保 此 时 该 字段 在 schema 的 配置 中 是 存储 型 的 ， 也 就 是 store= "true "。 


下 的 链接 ， 查 阅 Solr 给 出 的 建议 词 : 


http:WiMac2015: 8983/solr/listing new/suggest?indent=on&q= 咖 啡 &rows=0&wt=json 








网 


9-2 给 出 了 初步 的 结果 ， 从 中 可 以 看 出 Solr 建 议 的 都 是 以 “咖啡 ”为 前 缀 的 词语 。 





















重启 Solr 使 该 配置 生效 之 后 ， 你 就 可 以 访问 如 


Request-Handler ES http://localhost:8983/solr/listing_new/suggest?indent=on&q= 咖 啡 &rov 
(qt) 


/suggest | { 


一 Common 一 -一 一 "status":0, 
"QTime":1}, 
"suggest":{"listingSuggester":{ 
"咖啡 " :{ 
"numFound" :4, 
"suggestions":[{ 
"term" :" 咖 中" , 
"weight":131, 
"payload":""}, 





"responseHeader": 





"term" : "咖啡 色 " 2 
"weight":2, 
"payload" =: 本 "} p 


"term" : "咖啡 因 " 
"weight":1, 
"payload" s" 0 





n term" : i 咖啡 豆 " 7 
"weight":1, 


Raw Query "payload":""}]}}}} 
Parameters 


keyl=vall&key2=va 





图 9-2 ”使 用 Solt 的 建议 器 实现 自动 提示 功能 


类 似 地 ， 我 们 在 solrconfig.xml 文 件 中 定义 拼写 纠 错 的 组 件 和 处 理 器 ， 代 码 如 下 : 





<!-- 拼写 纠 错 (Spell Check) 的 配置 --> 
<!--“ 纠 错 “ 组 件 的 配置 --> 
<searchComponent name="spellcheck" class="solr.SpellCheckComponent"> 
<str name="queryMAnalyzerFieldType">text chinese</str> 
<lst name="spellchecker"> 
<str name="name">listingSpellchecker</str> 
<str name="field">listing title</str> <!-- 创建 " 纠 错 " 的 数据 源 字 段 ， 必 须 是 存储 的 字段 store="true" --> 
<str name="classname">solr.DirectSolrSpellChecker</str> 
<str name="distanceMeasure">internal</str> <!-- 使 用 默认 的 编辑 距离 衡量 是 否 错 拼 --> 
<float name="accuracy">0.5</float> <!-- 作为 纠 错 建 议 的 最 小 距离 阔 值 --> 
<int name="maxEdits">2</int> <!-- 人 允许 的 最 大 单词 编辑 次 数 ，1 或 2 --> 
<int name="minPrefix">1</int> <!-- 允许 的 最 小 前 级 单词 数 --> 
</lst> 
</searchComponent> 


<!-- " 纠 错 " 请 求 的 配置 --> 
<requestHandler name="/spell" class="solr.SearchHandler" startup="lazy"> 
<lst name="defaults"> 
<str name="spellcheck.dictionary">listingSpellchecker</str> <!-- 指向 上 面 定义 的 spellchecker --> 
<str name="spellcheck">true</str> 
<str name="spellcheck.count">10</str> <!-- 返回 " 纠 错 "的 数量 --> 
</lst> 
<arr name="last-components"> 
<str>spellcheck</str> <!-- 绑 定 spellcheck 组 件 和 /spel1 请 求 处 理 器 --> 
</arr> 
</requestHandler> 





生效 后 ， 可 尝试 如 下 的 链接 : 


http://iMac2015: 8983/solr/listing new/spell?indent=on&q=applle%20iphona&wt=json 





你 将 看 到 类 似 于 图 9-3 所 示 的 效果 ， 我 们 故意 输入 错误 的 英文 单词 “apple” 和 “iphona”，Solr 能 够 识别 并 给 出 纠正 的 建议 。 完 整 的 solrconfig.xmI 可 以 参考 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Solr/solr/listing new/conf/solrconfig.xml 


Request-Handler ES http://localhost:8983/solr/listing_new/spell?indent=on&q=applle ipho! 
(qt) 

"responseHeader":{ 
一 Comimon 一 一 一 一 " Status" :0， 

"QTime" :22}, 
"response":{"numFound":0,"start":0,"docs":[] 
}， 

"spellcheck":1{ 

"suggestions":[ 

"applle",t{ 
"numFound":1, 
"startOffset":0, 
"endOoffset":6, 
"suggestion":["apple"]}, 
"iphona",{ 
"numFound" :2, 
"startOoffset":7, 
"endoffset":13, 
"suggestion":["iphone", 
"iphone5"]}]}} 


q 
applls iphona 





图 9-3 使 用 Solt 的 纠 错 器 实现 自动 纠 错 
9.2.2 ”Elasticsearch 搜 索 建议 和 拼写 纠 错 的 实现 


在 Elasticsearch 中 建立 自动 建议 ， 需 要 在 映射 mapping 中 增加 字段 的 定义 。 例 如 : 





{ 
"settings" : { 
"analysis" : { 
"analyzer" : { 
"ik synonym" : { 
"tokenizer™" :; "ik smart", 
"filter" : ["synonym"] 


"type" : "synonym", 
"synonyms_path" : "synonyms.txt" 


} 
} 
] 
"mappings" : { 
"isting™ ; + 
"dynamic" : true, 
"properties" : { 
"isting title" > { 
"type" : "text", 
"analyzer" : "ik_synonym" 
] 7 
"listing title suggest"”: { 
"type" : "completion"™ 


’ 
"Category name™" : { 
ntypen : "text", 
"analyzer" : "ik_ synonym", 
"fielddata" : true 


] 7 
"listing id" : { 
mtype" : "long" 
}, 
"category id": { 
"type™: "long" 














如 上 加 粗 斜体 部 分 的 代码 所 示 ， 我 们 增加 了 一 个 新 的 字段 listing_title_suggest， 将 其 type 设 置 为 completion， 专 门 用 于 自动 建议 的 功能 。 向 如 下 端点 PUT 上 述 JSON 内 容 : 














http://iMac2015: 9200/listing new_autocompletion 


之 后 访问 : 


http:WiMac2015: 9200/listing new autocompletion 


你 将 看 到 listing title suggest 的 定义 ， 如 





图 











9-4 所 示 ， 表 明 映 射 已 创建 成 功 。 


{ 
"listing_new_autocompletion": { 
"aliases": { 


}， 
"mappings": { 
"listing": { 
"dynamic": "true", 
"properties": { 
"category_id": { 
"type": "long" 
}， 
"category_name": { 
"type”: "text", 
"analyzer": "ik_synonym", 
"fielddata": true 
}， 
“Beting. td™: 六 
"type": "long" 
}， 
"listing_title": { 
PE ”3 “text , 
"analyzer": "ik_synonym" 


"listing_title_suggest": { 
"type": "completion", 
"analyzer": "simple", 
"preserve_separators": true, 
"preserve_position_increments": 
"max_input_length": 50 


} 
} 
}， 
"settings": { 
"index": { 
"number_of_shards": "5", 
"provided_name": 
"listing_new_autocompletion", 
"creation_date": "1487036421820"， 





图 9-4 新 增 的 字段 ， 专 用 于 Elasticsearch 的 建议 功能 




















Elasticsearch 这 种 创建 专属 字段 来 实现 建议 功能 的 方法 ， 优 势 在 于 更 灵活 ， 你 完全 可 以 使 用 和 原 有 listing _title 字 段 不 同 的 内 容 ; 劣势 在 于 需要 消耗 更 多 的 内 存 空间 [1。 为 此 ， 我 们 也 要 为 索引 准备 新 的 


数据 文件 ， 你 可 以 访问 如 下 链接 获取 该 文件 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Elasticsearch/listing-segmented-shuffled-for-elasticsearch-autocompletion.txt 





下 面 对 其 内 容 稍 做 变化 ， 将 索引 index 改 为 listing_new_autocompletion: 





{ "index" : { " ingdex" : "listing new antocompleticn 下 地 VEen + Listirngn } } 

{ "listing id" 3 "1"， "listing title" : "雀巢 胸 脆 效 " 威 化 丁克 力 巧克力 全 夹心 20g 24 盒 "，"listing title suggest" : " 稚 集 脆 脆 泌 威 化 巧克力 巧克力 味 夹心 20g 24 盒 "，"categor' 
{ "index" : { " index" : "listing new autocompletion", " type" : "listing" } } 

{ “itoting En ¥ "2", "Lieting titlen : " 奥 利 奥 原 味 夹心 研 王 390g 袋 "，"listing title suggest"” : " 奥 利 奥 原 区 夹心 饼干 390g 袋 "，"category igd" : "1"，"category_name" : "饼干 " } 

ht 


ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/.. 








与 之 前 一 样 ， 运 行 批量 索引 端口 的 AP1: 





Curl -s -XPOST iMac2015:9200/_bulk --data-binary "@/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shuffled-for-elasticsearch-autocompletion.txt" 








索引 建立 完毕 之 后 ， 你 就 可 以 向 端点 http:WiMac2015: 9200/listing_new_autocompletion/_suggest POST 自动 完成 的 请 求 。 请 注意 ， 这 里 的 端点 中 只 需 设 定 index， 而 无 须 设 定 type。 假 设 POST 的 





请 求 如 下 : 
{ 
"suggestions™" : { 
ER 3 将 
"completion" : { 
"field" ; "listing title suggest" 


} 








你 将 得 到 类 似 于 图 9-5 所 示 的 结果 ， 从 结果 可 以 看 出 ，Elasticsearch 给 出 的 自动 完成 建议 和 Solr 的 相 类 似 ， 都 是 以 输入 为 前 缀 。 另 外 ，Elasticsearch 默 认命 中 和 返回 的 建议 是 completion 类 型 字段 的 全 
部 内 容 ， 在 这 里 就 是 整 条 商品 标题 ， 而 不 像 Solr 那 样 是 分 词 后 的 结果 。 即 使 是 在 mapping 中 将 completion 类 型 字段 的 分 词 设置 如 下 ， 也 不 会 有 所 改观 : 





POST 六 http://localhost:9200/listing_new_autocompletion/_sugg! Params Save 


Authorization Headers (1) Body® Pre-request Script Tests 


form-data xWwww-form-urlencoded raw binary JsON (application/json) Y 


1r 
2 "suggestions" : { 
5 "text”: "光明 "， 
4 "completion" : { 
"field" : "listing_title_suggest" 


Body Cookies Headers (3) Tests 


Raw Preview JION vv 之 


"options": [ 


"text": "光明 一 烛 黑 快捷 型 染 发 四 40g 2+7g 3 自然 棕 黑 "， 


"_index": "listing_new_autocompletion", 

"type": "listing", 

"_id": "AVo67rxAjOROc2stEdbo", 

"_score": 1， 

"_source": { 
"listing_id": "23916", 
"listing_title": "光明 一 烛 黑人 快 
"listing_title_suggest": "光明 一 
"category_id": “16"， 
"category_name": "美发 护 发 " 


2+7g 3 自然 棕 黑 "， 
发 霜 40g 2+7g 3 自然 棕 黑 "， 


"text": "光明 优 8 添加 纯 牛奶 250ml 12 盒 箱 新 品 上 市 "， 


"_index": "listing_new_autocompletion", 
"type": "listing", 
"_id": "AVo67rwzjOROc2stEY47", 
"_score": 1， 
"_source": { 
"listing_id": "5311", 


"listing_title": "光阴 优 9 添加 纯 牛奶 250ml 12 盒 箱 新 品 上 市 "， 
"listing_title_suggest": "光明 优 8 添加 纯 牛 奶 250mL 12 盒 箱 新 品 上 市 "， 


"category_id": "5", 
"category_name":" 纯 牛奶 " 


图 9-5 “光明 ”的 输入 ，Elasticsearch 将 返回 以 “光明 ”开头 的 建议 








http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 
"listing title suggest" : { 
~ "type" : "completion", 
"analyzer" : "ik_synonym" 


}, 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 


为 了 支持 错 拼 ， 可 以 在 POST 请 求 中 加 入 fuzzy 选 项 : 





"suggestions" : { 


text" : "applle", 

"completion" ; { 
"field" ; "listing title suggest", 
"fuzzy" : { "fuzziness" : 2 } 


} 





























如 图 9-6 所 示 ， 即 使 用 户 输入 了 applle，Elasticsearch 同 样 可 以 给 出 以 apple 开 头 的 建议 ， 因 为 它们 之 间 的 编辑 距离 小 于 设 定 的 值 2。 

















POST 六 http://localhost:9200/listing_ new_autocompletion/ sugg Params 


iVri Ua WwW XKVVVVVVIOITTTTOUIITCIICOUCUW Taw vinary JSON (appiicatvon7]son) AI 


"suggestions" : 
"text" : "applle", 
"completion" : { 
"field" : "listing_title_suggest", 
"fuzzy”: { "fuzziness" : 2 } 


Cookies Headers (3) Tests 


Raw Preview JSON Y 之 
"options": [ 


{ 


Status: 200 OK Time: 20 ms 


吕 Q 


"text": "apple 5c 16g 版 4g 手机 td-lte td-scdma gsm 移动 用 户 请 认 准 "， 


"_index": "listing_new_autocompletion", 
"type": "listing", 
"_id": "AVo7IdWQjOROc2stEjXr", 
"_score": 4, 
"_source": { 

"listing_id": "19524", 


"listing_title": "apple 5c 16g 版 4g 手机 td-lte td-scdma gsm 移动 用 户 请 认 准 


移动 4g 版 iphone5c"， 


"listing_title_suggest": "apple 5c 16g 版 4g 手机 td-1lte td-scdma gsm 移动 用 户 


请 认 准 移动 4g 版 iphone5c"， 
"category_id": "14", 
"category_name": "手机 " 


}, 
{ 


"text": "apple 5s 苹果 5s iphone5s 电信 版 电信 实体 连锁 营业 厅 行货 品质 保证 " 


» 

"_index": "listing_new_autocompletion", 
"type": "listing", 
"_id": "AVo7IdWRJOROc2stEjw] "， 
"_score": 4， 
"_source": { 

"listing_id": "21090", 

"listing_title": "apple 5s 苹果 5s iphone5s 电信 

品质 保证 "， 


版 电信 实体 连锁 营业 厅 行货 


"listing_title_suggest": "apple 5s 苹果 5s iphone5s 电信 版 电信 实体 连锁 


营业 厅 行货 品质 保证 "， 
"category_id": "14", 
"category_name": "手机 " 














[1] Elasticsearch 为 了 追求 自动 完成 的 速度 ， 目 前 将 completion 类 型 字段 的 数据 都 加 载 到 内 存 中 处 理 。 


9.3 ”改进 方案 


“大 宝 ， 不 错 的 实践 ， 我 们 已 经 实现 了 搜索 提示 的 基本 功能 。 不 过 ， 还 有 一 些 可 以 改进 的 地 方 。” 


“ 哦 ， 哪 里 还 需要 改进 ?“ 

















我 们 首先 来 看 看 Solr 和 Elasticsearch 自 带 的 搜索 或 拼写 建议 存在 哪些 不 足 之 处 ， 具 体 有 以 下 几 点 。 




















“ 无 法 预测 相关 的 分 类 。 目 前 主流 的 站 点 都 会 在 给 出 搜索 提示 的 同时 ， 告 诉 用 户 最 相关 的 那 条 搜索 查询 ， 属 于 哪个 商品 分 类 。 例 如 
别 是 “速溶 咖啡 ”“ 进 口 速溶 咖啡 ”和 “咖啡 饮料 ”。 而 Solr 和 Elasticsearch 都 无 法 提供 这 些 信息 。 




















图 9-6 ”设置 fuzzy 之 后 ，“applle” 的 输入 也 可 以 获得 以 “apple” 开 头 的 建议 


9-1 中 ， 用 户 输入 “咖啡 ”时 ， 搜 索 下 拉 框 提示 最 相关 的 三 个 分 类 分 


“ 无 法 结合 用 户 的 行为 数据 。 和 用 户 输入 相关 的 搜索 查询 有 很 多 ， 应 该 优先 向 用 户 展示 哪些 呢 ? 这 点 在 很 大 程度 上 取决 于 用 户 的 搜索 行为 。 对 于 用 户 经 常 查询 的 热 搜 词 ， 我 们 需要 赋予 其 更 高 的 权重 ， 


让 其 被 优先 展示 。 而 Soltr 和 Elasticsearch 考 虑 更 多 的 则 是 候选 词 在 文档 集合 中 出 现 的 词 频 ， 这 种 信息 和 实际 用 户 的 使 用 数据 未 必 一 致 。 


“ 无 法 结合 其 他 业务 数据 。 例 如 ， 对 于 电 商 而 言 ， 我 们 可 能 还 需要 考虑 搜索 查询 所 对 应 的 商品 是 否 还 有 库存 ， 对 应 的 分 类 是 否 热 销 ， 等 等 。 这 些 都 是 Solr 和 Elasticsearch 没 有 考虑 的 因素 。 


“ 对 中 文 支持 不 佳 。 






































a) 无 法 支持 非 前 缀 的 建议 。Solr 和 Elasticsearch 原 本 都 是 针对 拉丁 语系 开发 的 ， 因 此 使 用 了 基于 前 绎 的 匹配 来 查找 相关 建议 。 但 是 用 这 种 方式 来 处 理 中 文 的 效果 就 不 一 定 很 理想 了 。 例 如 ， 当 用 户 键 
入 “咖啡 ”的 时 候 ，“ 速 溶 咖 啡 ” “ 白 咖 啡 ”等 都 是 非常 好 的 提示 词 。 如 果 只 用 前 级 匹配 ， 那 么 将 错失 这 些 建议 词 。 































































































b) 无 法 支持 基于 拼音 、 首 拼 的 搜索 提示 。 拼 音 和 首 拼 都 是 中 文 的 特色 ， 图 9-7 和 图 9-8 分 别 展示 了 两 者 的 用 法 。 












































c) 无 法 支持 基于 拼音 的 纠 错 。 拉 丁 语系 自身 的 特点 决定 了 纠 错 的 常用 策略 是 字符 串 之 间 的 编辑 距离 。 和 前 缀 匹配 类 似 ， 这 点 对 于 中 文 并 不 适用 。 例 如 “ 马 卡 龙 ”和 “ 马 应 龙 ” 只 差 了 1 个 汉字 ， 但 是 意 
思 完 全 不 同 。 另 一 方面 ， 也 许 我 们 可 以 使 用 编辑 距离 来 衡量 查询 所 对 应 的 拼音 之 间 有 多 大 差异 。 图 9-9 展 示 了 一 个 假想 的 例子 ， 用 户 输入 拼音 的 时 候 多 键入 了 一 个 字母 ， 而 基于 拼音 的 模糊 匹配 使 得 正确 的 搜 
索 提 示 成 为 可 能 。 


































































































针对 Solr 和 Elasticsearch 自 带 搜索 建议 的 局 限 性 ， 我 们 可 以 通过 如 下 的 改进 措施 ， 自 行 设计 一 个 建议 模块 。 


























“ 使 用 先前 介绍 的 查询 分 类 〈quety classification) 模块 ， 对 用 户 的 输入 进行 分 类 。 分 类 的 信息 既 可 以 在 索引 时 引入 ， 也 可 以 在 查询 时 实时 地 获取 。 这 里 建议 在 索引 时 完成 ， 主 要 原因 有 两 点 : 每 次 用 户 的 
输入 都 会 请 求 自动 提示 功能 ， 因 此 访问 量 较 大 ; 同时 ， 查 询 的 分 类 变化 周期 很 长 ， 一 般 不 会 轻易 变动 。 


在 速溶 咖啡 分 类 中 搜索 
在 进口 速溶 咖啡 分 类 中 搜索 
在 咖啡 饮料 分 类 中 搜索 


超级 (Super) 





图 9-7 支持 拼音 输入 的 自动 提示 功能 


在 速溶 咖啡 分 类 中 搜索 
在 进口 速溶 咖啡 分 类 中 搜索 
在 咖啡 饮料 分 类 中 搜索 


超级 (Super) 





图 9-8 ”支持 首 拼 输入 的 自动 提示 功能 
“ 数据 源 采用 用 户 的 查询 日 志 ， 而 不 是 商品 的 标题 。 当 然 ， 也 可 以 结合 这 两 者 产生 候选 词 。 如 此 操作 ， 就 可 以 保证 我 们 不 会 错过 用 户 所 真正 关心 的 热 搜 词 。 
“ 结合 一 些 业务 数据 ， 例 如 搜索 提示 词 所 对 应 的 商品 数量 。 
“ 对 于 数据 源 中 的 候选 词 ， 进 行 中 文 分 词 ， 让 前 级 匹配 可 以 应 用 于 每 个 切 分 而 来 的 中 文 词 。 
“ 对 于 数据 源 中 的 候选 词 ， 获 取 相 应 的 拼音 和 首 拼 信 息 。 


“ 在 上 述 措施 基础 之 上 ， 将 用 于 搜索 提示 的 索引 和 商品 索引 分 隔 开 来 ， 专 门 针 对 用 户 搜索 日 志 来 进行 索引 ， 这 就 确保 了 提示 内 容 的 质量 。 由 于 我 们 已 经 极 大 地 丰富 了 搜索 日 志 中 的 内 容 ， 除 了 原始 的 关 
键 词 内 容 ， 还 包括 了 查询 的 相关 分 类 、 拼 音 和 首 拼 等 ， 这 就 使 得 在 查询 的 时 候 ， 不 仅 可 以 支持 中 文 ， 还 支持 拼音 及 其 变 体 ， 并 且 能 够 同时 返回 相关 分 类 的 信息 。 最 终 ， 利 用 Solt 或 Elasticsearch 强 大 的 搜索 功 
能 ， 考 虑 除了 相关 性 之 外 的 因素 ， 例 如 搜索 次 数 和 匹配 商品 的 数量 等 。 根 据 这 个 基本 思路 ， 大 致 的 整体 架构 如 图 9-10 所 示 。 其 中 行为 数据 的 收集 和 分 析 将 在 第 四 篇 进行 详细 介绍 。 














咖啡 

在 速溶 咖啡 分 类 中 搜索 
在 进口 速溶 咖啡 分 类 中 搜索 
在 咖啡 饮料 分 类 中 搜索 


超级 (Super) 





图 9-9 支持 错误 拼音 输入 的 自动 提示 功能 


io WE 用 于 自动 提示 的 SolrCloud 或 IKAnalyeer 
fo) 于 i 中 文 分 词 


















































行为 数据 收集 和 分 析 





2 
品 吉 勤 二 区 记 避 二 二 二 时 二 去 癌 攻 区 总 吉 吉 二 二 天 


拼音 、 首 拼 
等 预 处 理 


ee MySQL 数据 库 EE MySQL 数据 库 





三 原始 搜 词 日 志 让 宙 后 的 搜 河 日 志 
一 “ (存放 用 户 搜索 的 关键 词 人 sa 查询 结果 

以 及 词 条 - 类 目 表 ) ee 

MySQL 数据 库 lt 
(存放 商品 和 分 类 Mahout 或 R 十 端 应 用 
和 个 | 8 | 丁力 各 类 | 

的 原始 数据 ) (分 类 模型 ) 
查询 分 类 























图 9-10 ”搜索 下 拉 自 动 提示 的 技术 框架 





9.4 ”案例 实践 : 改进 方案 






































量 ”表示 在 电 商 平台 上 ， 这 些 关 键 词 所 能 搜 到 的 商品 数量 。 下 面 是 一 段 样 例 : 











搜索 次 数 商品 数量 
83012 889 
56622 287 
43688 324 
41437 681 
40897 106 
39278 747 
36469 603 
29598 345 
26233 811 
洗衣 液 24960 835 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 


完整 的 搜索 日 志 样 例 ， 可 以 参见 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/querylog.examples.txt 


给 定 这 个 搜索 日 志 ， 再 结合 之 前 的 方案 设计 ， 我 们 期 望 为 每 个 查询 准备 类 似 如 下 的 字段 : 








首先 ， 我 们 虚构 一 个 用 户 搜索 的 日 志 ， 它 包含 “关键 词 ” “搜索 次 数 ” 和 “商品 数量 ”三 个 字段 。 其 中 “关键 词 ”表示 用 户 原始 的 输入 ，“ 搜 索 次 数 ”表示 一 定时 间 内 被 用 户 搜索 的 频率 ， 而 “商品 数 

















<doc> 
<field name 
<field name 
<field name 
<field name 
<field name 
<field name 
<field name 

</doc> 


"id">199</field> 
"query"> 稚 巢 咖 啡 </field> 
"term prefixs"> 和 省 洗 昌 雀巢 咖 淮 巢 咖啡 咖 咖啡 </fielg> 


"category"> 饮 料 饮品 </field> 
"frequency">4834</field> 
"skunum">100</field> 





这 里 对 几 个 字段 的 解释 如 下 。 
“ 字段 query 为 搜索 查询 日 志 中 的 原始 用 户 输入 。 


: 字段 term_prefixs 是 根据 中 文 分 词 的 结果 ， 为 每 个 分 词 都 生成 可 能 的 前 组 。 例 如 ， 这 里 的 “ 誉 集 咖啡 ”被 IKAnalyzer 切 分 为 “ 竺 集 ”、 
前 级 为 “ 管 ”“ 惟 巢 ”“ 稚 集 咖 ”“ 惟 集 咖啡 ”“ 咖 ”和 “咖啡 ”。 如 此 操作 的 优势 在 于 ， 无 论 用 户 输入 的 是 “ 翟 ” 还 是 “ 咖 ”， 都 有 可 
英文 前 级 搜索 无 法 完成 的 。 


"pinyin prefixs">q qi qia qiao qiaoc qiaoch qiaocha qiaochao qiaochaok qiaochaoka qiaochaokaf qiaochaokafe qiaochaokafei qu que quec quech quecha quechao quec 


“咖啡 ”和 “ 稚 业 咖啡 ”3 个 分 词 ， 那 么 去 重复 之 后 ， 所 有 可 能 的 





能 得 到 “ 稚 集 咖啡 的 提示 ”， 最 终 效果 如 图 9-1 所 示 。 这 点 是 普通 的 











“ 字段 pinyin_prefixs 和 term_prefixs 类 似 ， 只 是 这 次 不 再 是 中 文 词 的 前 组 ， 而 是 中 文 词 对 应 的 拼音 和 首 拼 的 所 有 前 组 。 同 时 ， 我 们 也 考虑 了 多 音 词 (|。 





“ 字段 category 表 示 和 该 查询 最 相关 的 商品 分 类 ， 我 们 可 以 使 用 之 前 设计 的 查询 分 类 器 来 获取 这 些 结果 。 注 意 ， 这 里 的 分 类 可 以 多 于 一 个 ， 或 者 没有 。 通 常 对 于 品牌 词 (例如 “和 瞧 梨 ”“ 康 师傅 ”， 等 
等 ) ， 或 者 是 比较 抽象 的 品类 词 〈 例 如 “牛奶 ”“ 油 ”， 等 等 ) ， 相 关 分 类 会 多 于 一 个 。 此 外 ， 由 于 我 们 用 于 查询 分 类 器 训练 的 样本 很 有 限 ， 所 以 对 于 某 些 查询 将 不 存在 得 分 很 高 的 相关 分 类 。 实 际 生产 


中 ， 这 个 问题 是 可 以 通过 扩大 训练 样本 来 解决 的 。 
“ 字段 frequency 和 字段 skunum 分 别 表示 查询 被 用 户 搜索 的 次 数 ， 以 及 查询 对 应 于 商品 的 数量 。 
为 了 得 到 这 些 数 据 ， 我 们 提供 了 一 个 预 处 理 的 代码 : 


// 将 查询 日 志 querylog.examples .txt 转 化 成 solr 的 输入 文件 格式 
public void prepareSolrInput (String querylogFile, String forSolrFile) { 


BufferedWriter bwForSolrIndexing = null; 
try { 


bwForSolrIindexing = new BufferedWriter 
(new OutputStreamWriter (new FileOutputStream(forSolrFile), 
TREE 

bwForSolrIndexing.write ("<add>\r\n"); 


// 读 取 查询 日 志 
int id = 0; 
BufferedReader br = new BufferedReader 
(new InputStreamReader (new FileInputStream(querylogFile), 


"utf-8") ) 7 
String strLine = br.readLine () 7 // 跳 过 头 部 
while ((strLine = br.readLine()) != null) { 


String[] tokens = strLine.split(™\t"); 
if (tokens.length < 3) continue; 


// 读 取 每 行 的 关键 词 、 查 询 频率 及 对 应 的 商品 数量 
String keyword = tokens[0]; 

long frequency = 0, skunum = 0; 
frequency = Long.parseLong (tokens[1]); 
skunum = Long.parseLong (tokens [2]); 


Map<String, Integer> dedup = new HashMap<>(); 





// 用 于 去 重 
List<String> keywordtokens = new ArrayList<String>(); 
keywordtokens .add (keyword); dh 首先 加 入 原 有 的 闫 台词 


dedup.put (keyword, 1); 
// 除了 原 有 关键 词 本身 ， 还 可 以 加 入 关键 词 的 中 文 分 词 


te kanalyzer.tokenStream("myfield", new StringReader (keyword)); 
// 获取 词 元 文本 属性 
CharTermAttribute term = ts.addAttribute (CharTermAttribute.class); 
// 重 置 TokenStream ( 重 置 StringReader) 
ts.reset (); 
// 迭代 获取 分 词 结果 
while (ts.incrementToken()) { 
String termStr = term.toString(); 
if (!dedup.containsKey (termstr)) { 
keywordtokens .add (term.tostring()); 
dedup.put (termStr，1) 7 











} 


} 

// 关闭 TokenStream (关闭 StringReader) 
ts.end(); 

ts.close(); 


// 获取 分 词 、 拼 音 及 首 拼 的 前 级 

StringBuffer sbKeywordTokens = new StringBuffer (); 
StringBuffer sbPinyinTokens = new StringBuffer(); 
StringBuffer sbShouPinTokens = new StringBuffer () 7 


dedup.clear () 7 
for (String keywordtoken : keywordtokens) { 


// 处 理 中 文 分 词 
for (int i = 1; i < keywordtoken.length() + 17 i++) { 
String prefix = keywordtoken.substring (0, i); 
if (!dedup.containsKey (prefix)) { 
sbKeywordTokens .append (prefix) .append (™ "); 
dedup.put (prefix, 1); 


} 


// 处 理 拼音 ， 存 在 多 音字 的 可 能 
String[] Pinyintokens = getPinyin (keywordtoken) .split (","); 
for (String pinyintoken : pinyintokens) { 
for (int i = 1; i < pinyintoken.length() + 1; i++) { 
String prefix = pinyintoken.substring (0, i); 
if (!dedup.containsKey (prefix)) { 
SbPinyinTokens .append (prefix) .append (" "); 
dedup.put (prefix, 1); 


} 


// 处 理 首 拼 
String shoupintoken = getShoupin (keywordtoken); 
for (int i = 1; i < shoupintoken.length() + 17 I++) { 
String prefix = shoupintoken.substring (0, i); 
if (!dedup.containsKey (prefix)) { 
sbPinyinTokens .append (prefix) .append (" "); 
dedup.put (prefix, 1); 


// 对 查询 进行 分 类 ， 获 取 最 相关 的 2 个 分 类 
Map<String, Double> prediction = nbqcsearch.predict (keyword); 
List<Pair> rank = new ArrayList<>(); 
for (String category : Prediction.keySet()) { 
rank.add (new Pair (category, prediction.get (category), true)); 
} 
Collections.sort (rank); 
System.out .Println (rank.get (0) .strToken); 


// 构建 用 于 Solz 索 引 的 xml 文 件 
bwForSolrIindexing.write("\t<doc>\r\n"); 
bwForSolrIindexing.write (String.format ("\t\t<field name 
\"id\">%qd</field>\r\n",id)); 

bwForSolrIindexing.write (String.format ("\t\t<field name = 
\"query\">%s</field>\r\n", keyword.trim())); 
bwForSolrIindexing.write (String.format ("\t\t<field name = 
\"term prefixs\">%s</field>\r\n", sbKeywordTokens.tostring())); 
bwForSolrIindexing.write (String.format ("\t\t<field name = 
\"pinyin prefixs\">%s %s</field>\r\n", 
sbPinyinTokens.toString(), sbShouPinTokens.toString())); 


// 设置 阅 值 为 0.2， 过 波 不 相干 的 分 类 本 | 
// 注意 ， 由 于 我 们 的 分 类 训练 样本 有 限 ， 所 以 某 些 查 询 无 法 获得 相应 的 分 类 预测 结果 ， 或 者 是 
// 预测 结果 不 准 ， 这 点 可 以 通过 加 大 训练 样本 来 改善 。 
if (rank.get (0) .dWeight > 0.2) { 
bwForSolrIindexing.write (String.format ("\t\t<field name = 
\"category\">%s</field>\r\n", rank.get (0) .strToken) ) 7 
if (rank.get(1) .dWeight > 0.2) { 
bwForSolrIindexing.write (String.format ("\t\t<field name = 
\"category\">%s</field>\r\n", rank.get (1) .strToken) ); 








bwForSolrIindexing.write (String.format ("\t\t<field name 

\"frequency\">%s</field>\r\n", frequency)); 

bwForSolrIindexing.write (String.format ("\t\t<field name = 

\"skunum\">%d</field>\r\n", skunum) ) 7 
bwForSolrIndexing.write("\t</doc>\r\n"); 
bwForSolrIindexing.flush(); 


idits 


br.close(); 


bwForSolrIindexing.write ("</add>\r\n"); 
bwForSolrIndexing.close ()7 


} catch (Exception ex) { 


if (bwForSolrIindexing != null) { 
try { 
bwForSolrIindexing.flush(); 
bwForSolrIindexing.close(); 
} catch (Exception ex2) { 
ex2.printStackTrace (); 
} 
} 


ex.printStackTrace (); 





对 于 完整 的 代码 ， 请 参考 如 下 项 目 中 的 PreprocessorForSolr 类 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Search/SearchSuggester 
运行 成 功 之 后 ， 你 将 生成 Solr 可 以 批 处 理 的 xml 文 件 querylog.forsolr.xml， 完 整 文件 位 于 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Search/Solr/querylog.forsolr.xml 





下 一 步 ， 就 是 建立 相应 的 Solr 核 心 (core) 或 文档 (collection) 。 参 照 listing_new， 新 建 suggester， 在 其 模式 文件 schema 中 加 入 下 列 片段 ， 指 定 各 个 字段 的 设置 : 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
<field name="id" type="text en" indexed="true" stored="true"/> 
<field name="query" type="text en" indexed="true" stored="true"/> 
<!-- 既 需 要 搜索 ， 也 需要 展示 --> 
<field name="term prefixs" type="text en" indexed="true" stored="false"/> 
<!-- 仅 用 于 搜索 ， 不 用 展示 ， 所 以 不 用 存储 --> 
<field name="pinyin prefixs" type="text en" indexed="true" stored="false"/> 
<!-- 仅 用 于 搜索 ， 不 用 展示 ， 所 以 不 用 存储 --> 


<field name="category" type="text en" multiValued="true" indexed="false" 


stored="true"/> 
<!-- 仅 用 于 展示 ， 所 以 不 索引 。 可 以 为 多 值 --> 


<field name="frequency" type="long" indexed="true" stored="false"/> 








<field name="skunum" type="long" indexed="true" stored="false"/> 
<!-- 以 上 两 个 字段 仅 用 于 排序 ， 所 以 需要 索引 ， 而 无 须 存储 --> 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OFRBPSVText/... 














此 处 字段 和 xml 文 件 中 的 字段 一 一 对 应 ， 是 否 索引 或 存储 也 在 注释 中 做 了 说 明 ， 可 以 根据 实际 需要 灵活 变通 。 由 于 xml 文 件 中 的 各 个 前 缀 字段 都 已 经 分 词 完 毕 ， 所 以 将 类 型 设置 为 普通 的 text_en 即 可 。 


最 后 ， 


category 字 段 可 以 拥有 多 个 值 ， 存 放 所 有 相关 的 分 类 。 


而 在 solrconfig.xml 中 ， 我 们 指定 对 三 个 字段 query、term_prefixs 和 pinyin_prefixs 进 行 搜索 : 





http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 
<requestHandler name="/select" class="solr.SearchHandler"> 


h 


<!-- default values for query parameters can be specified, these 
will be overridden by parameters in the request 
pe 
<lst name="defaults"> 
<str name="echoParams">explicit</str> 
rows">10</int> 
defType">edismax</str> 
<str name="qf">query term prefixs pinyin prefixs</str> 
<!-- 搜索 query、term prefixs 和 pinyin_prefix 三 个 字段 --> 
<!-- <str name="df">text</str> --> 
</lst> 
ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... 








设置 完 s<hema 和 solrconfig 之 后 ， 以 单机 或 集群 模式 启动 Solr。 如 果 成 功 ， 你 将 看 到 新 增 了 suggester 的 核心 或 文档 。 现 在 ， 有 了 批量 索引 的 xml 文 件 ， 也 依照 上 述 配置 建立 好 了 solr core， 那 么 你 就 可 























以 使 


Solr 的 批量 索引 方式 了 ， 运 行 /Users/huangsean/Coding/solr-6.3.0/bin/post 的 命令 : 














2 
S 
P 
I 
P 
2 
C 
T 


huangsean@iMac2015:/Users/huangsean/Coding/solr-6.3.0] ./bin/post -c suggester /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/querylog.forsolr.xml 
Library/Java/JavaVirtualMachines/jdk1.8.0 112.jdk/Contents/Home/bin/java -classpath /Users/huangsean/Coding/solr-6.3.0/dist/solr-core-6.3.0.jar -Dauto=yes -Dc=suggester -Ddata 
implePostTool version 5.0.0 
osting files to [base] url http:// localhost:8983/solr/suggester/updatehttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/ 
ntering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html, txt, Tog 
OSTing file querylog.forsolr.xml (application/xml) to [base] 

files indexed. 
OMMITting Solr index changes to http:// iMac2015:8983/solr/suggester/updatehttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/T 
ime spent: 0:00:00.486 





Request-Handler (qt) Wa http:/ /iocalhost:8983 /solr/suggester/select?fq= 咯 &indent=on&q=* 
|/select 











— common "responseHeader":{ 
q "status":0, 
"QTime":0, 
"params":{ 

"gq" sax", 

"indent":"on", 

"fq":" 明 "， 

"gort":"frequency desc, skunum desc", 
sort "wt":"json", 
‘frequency desc, skunum desc | "_":"1487313902273"}}, 
"response":{"numFound":6,"start":0,"docs":[ 
start, rows { 

















"query" "咖啡 "， 
"category": [ "饮料 饮品 " ] ， 

” Version ":1559561270952198144, 
"skunum" 811， 


"frequency" :26233}, 








Raw Query Parameters "id":"156", 

keyl=vall&key2=Vval2 "query":" 咖 嘿 "， 

、 "category":[ "方便 面 "]， 
"_version_":1559561271019307011, 
"skunum" :685, 

indent "frequency" :5851}, 

门 debugQuery 











adsssag9”, 
dlsmax "query" : "省 集 匣 啡 " ， 
"category" :【 "饮料 饮 品 " ] ， 
"_version_":1559561271035035649，, 
Onhl "skunum" :100, 
门 facet "frequency" :4834}, 


站 edismax 


站 spatial nn 
8 
中 spellcheck "every"s" 自 咖 只 


"_version_":1559561271096901637，, 
"skunum" :292, 


"frequency" :1939}, 


"id":"766", 

"query" : "咖啡 伴侣 " ， 
"_version_":1559561271134650374, 
"skunum" :306, 

"frequency" :1278}, 


"id":"823", 

"query":" 咖 啡 豆 "， 

" version ":1559561271144087554, 
"skunum" :46, 

"frequency" :1194}] 





图 9-11 用 户 键 入 “ 咖 ” 之 后 的 搜索 自动 提示 



































在 post 命 令 中 指定 了 核心 /文档 的 名 称 为 Suggester， 以 及 xml 文 件 querylog.forsolr.xml， 你 就 能 轻松 地 完成 这 些 文档 的 索引 。 最 后 ， 搜 索 的 自动 下 拉 提 示 就 是 通过 在 此 索引 上 的 查询 来 实现 的 。 用 户 每 
敲 击 一 次 键盘 改变 搜索 框 的 内 容 时 ， 就 将 其 输入 内 容 作为 查询 ， 在 suggester 上 进行 搜索 。 比 如 ， 用 户 键入 了 “ 咖 ”， 你 将 看 到 类 似 图 9-11 的 结果 。 其 中 为 了 避免 BM25 模 型 对 排序 得 分 的 影响 ， 因 此 使 用 了 
fq 过 滤 查 询 ， 而 frequency 和 skunum 字 段 则 可 用 于 排序 。 由 于 默认 搜索 字段 除了 原 有 的 查询 ， 还 有 拼音 和 首 拼 字 段 ， 因 此 你 还 可 以 输入 拼音 测试 一 下 ， 如 图 9-12 所 示 ， 用 户 输入 了 拼音 “niu”。 如 果 希 望 
进行 拼音 的 容错 处 理 ， 可 以 通过 Solr 的 编辑 距离 模糊 查询 来 实现 。 在 图 9-13 所 示 ， 用 户 错误 地 输入 了 “kafeii” ， 系 统 仍然 能 猜测 用 户 输 入 的 是 “kafei” ， 也 就 是 “咖啡 ”。 这 里 模糊 查询 的 语法 















































































































































是 “kafeii~2”， 表 示 可 以 容忍 的 编辑 距离 最 大 为 2， 而 “kafei” 和 “kafeii” 的 编辑 距离 为 1， 符 合 条 件 。 


Request-Handler (qt) 
/select 








一 Common 














sort 


[-[ 


frequency desc, skunum desc 





start, rows 





0 | lo 


- 





fl 





df 





Raw Query Parameters 





keyl=vall&key2=val2 











wt 
json 





indent 
debugQuery 


OD 〇 dismax 
Dedismax 
Ohl 

Ofacet 

站 spatial 

站 spellcheck 








3 http://localhost:8983/solr/suggester/select?fq=niu&indent=on&q= 


"responseHeader":{ 
"status":0, 
"QTime":0, 
"params":{ 
"gensw", 
"indent":"on", 
“Ed 
"SOzt" "frequency desc, skunum desc", 
"wt"s"json"s 
"_"s"1487313902273"}}, 
"response":{"numFound":10,"start":0,"docs":[ 
{ 
"id":"3", 
"query" : "牛奶"， 
"category" :[ "进口 牛奶 "， 
" 纯 牛 奶 " ] ， 
”version ":1559561270948003840, 
"skunum" :681, 


"frequency" :41437}, 


"ae 12: 

"query" :" 牛 肉 干 "， 

"category":[ "方便 面 " ] ， 
"_version_":1559561271003578369，, 
"skunum" :838, 

"frequency" :7488}, 


"id":"263", 

"query" : "进口 牛奶 "， 

"category" :[ "进口 牛奶 " ] ， 
"_version ":1559561271052861440， 
"skunum" :137， 

"frequency" :3591}, 


ddd" "27% 

"query" :" 牛 仔裤 "， 
"_version_":1559561271057055748, 
"skunum" :763, 

"frequency" :3312}, 


A355 

"query": "牛肉 " 

"category":[ "方便 面 "]， 
"_version_":1559561271071735812, 
"skunum" :128, 





图 9-12 用户 键入 “niu” 之 后 的 搜索 自动 提示 








有 了 这 个 基础 ， 使 用 SolrJ 来 构建 实时 的 线 上 服务 就 不 难 了 ， 可 以 参照 之 前 商品 的 搜索 引擎 来 实现 。 此 外 ， 使 用 Elasticsearch 的 实现 和 Solr 的 类 似 ， 这 里 也 不 再 歼 述 。 








“小 明 哥 ,通过 这 一 章 的 学 习 ， 我 发 现 打 造 一 个 精良 的 搜索 引擎 比 想象 中 的 更 具 挑 战 性 啊 ! 系统 架构 、 结 果 相关 性 、 





Elasticsearch 这 种 开源 软件 是 远 远 不 够 的 。” 


























户 的 个 性 化 ， 甚 至 是 小 小 的 搜索 自动 提示 都 很 有 讲究 ， 简 单 地 实施 Solr 或 


Request-Handler (qt) 


一 common 


{ 











Raw Query Parameters 


keyl=vall&key2=val2 














indent 
DD debugQuery 


口 dismax 
Oedismax 
Ohl 
Ofacet 

品 spatial 


Om spellcheck 


ES3 http://localhost:8983/solr/suggester/select?fq=kafeii~2&indent=onN&q=*: 


"responseHeader" :{ 
"status":0, 
"QTime":31, 
"params":{ 

"gq" snrsx", 
"indent":"on", 
"fq":"kafeii~2", 
"Sort":"frequency desc, skunum desc", 
"wt":"json", 
"_"s"1487313902273"}}, 

"response":{"numFound":5,"start":0,"docs":[ 


"id":"8", 
"query":" 了 咖啡 "， 

"category" :[" 饮 料 饮品 " ] ， 
"_version_":1559561270952198144, 
"skunum" :811, 


"frequency" :26233}, 


"0 2 L997 

"query" : "从 蘑 咖啡 "， 

"category" :[ "饮料 饮品 " ] ， 
"_version_":1559561271035035649, 
"skunum":100, 

"frequency" :4834}, 


"id":"504", 

"query" : " 白 咖啡 " 

”version ":1559561271096901637， 
"skunum" :292, 


"frequency" :1939}, 


"id":"766", 

"query" :" 咖 啡 伴侣 "， 

”version ":1559561271134650374， 
"skunum" :306, 


"frequency" :1278}, 


"48" 300238% 

"query" :" 咖 啡 豆 "， 
"_version_":1559561271144087554, 
"skunum" :46, 

"frequency" :1194}] 





图 9-13 用户 键入 “kafeii” 之 后 ， 基 于 编辑 距离 的 搜索 使 其 匹配 上 了 “kafei” 


“ 嗯 ， 在 生产 环境 中 ， 你 还 需要 结合 实际 的 商业 需求 和 软 硬 件 环境 ， 打 造 更 加 贴 合 业务 的 搜索 引擎 。” 


上 此 处 为 了 覆盖 更 多 的 可 能 性 ， 暂 时 不 考虑 多 音 情况 的 准确 性 ， 而 是 列 出 所 有 多 音 的 可 能 性 。 


第 10 章 方案 设计 和 技术 选 型 : 推荐 


在 大 宝 及 其 团 








“ 唾 ， 小 丽 ， 


队 的 不 懈 努 力 下 ， 改 进 版 的 搜索 很 快 上 线 。 由 于 搜索 功能 


忙 什么 呢 ? 有 空 聊 一 下 吗 ?” 





“大 宝 ， 你 好 。 这 不 是 店庆 快 到 了 嘛 ， 我 们 运营 部 正在 积极 酝酿 店庆 活动 的 方案 ， 还 有 些 f 

















便捷 ， 


























户 的 反响 非常 热烈 ， 流 量 的 转化 率 也 有 了 明显 的 提升 。 业 绩 上 了 一 个 台阶 ， 公 司 的 合伙 人 们 也 稍稍 喘 了 口 
他 很 想 知道 后 面 的 问题 具体 是 什么 。 于 是 ， 他 主动 找到 了 小 丽 。 








和 场 推广 的 策划 也 在 进行 ， 所 以 最 近 超级 忙 。 你 找 我 肝 


气 ; 





“打扰 了 ， 其 实 我 很 想 知道 ， 你 上 次 所 说 的 用 户 调研 中 ， 抱 怨 比 较 多 的 其 他 技术 问题 是 什么 。” 


























“ 咽 ， 这 个 事情 优先 级 也 很 高 ， 正 好 我 们 坐 下 来 详细 地 谈 一 谈 。 首 先 ， 非 常 感谢 你 们 团队 的 快速 响应 ， 改 良 的 搜索 功能 上 线 后 我 们 用 户 的 活跃 度 和 订单 量 都 明显 增长 了 。 至 于 第 2 个 主要 的 问题 ， 无 论 是 
从 用 户 的 角度 ， 还 是 从 我 们 公司 的 角度 来 看 ， 该 需求 都 是 很 有 必要 的 ， 本 质 上 来 说 我 认为 就 是 如 何 进 一 步 增加 销售 。 
































“什么 叫 “增加 ”我 们 的 销售 ?“ 











“简单 地 讲 就 是 增加 推荐 栏 位 。 这 种 技术 在 各 大 互联 网 站 点 的 已 经 很 普遍 的 了 ， 对 于 用 户 来 说 ， 他 们 即使 没有 输入 搜索 条 件 ， 系 统 也 会 提出 一 些 建议 ， 帮 助 他 们 发 现 一 些 可 能 感 兴趣 的 商品 。 而 对 于 公 





司 来 说 ,这 也 是 增加 里 品类 销售 和 向 上 促销 的 绝 好 机 会 。 目 前 ， 各 大 电 商 网 站 通过 推荐 渠道 而 产生 的 销售 ， 可 以 达到 整体 销售 的 10% 甚 至 更 多 。 在 这 方面 ， 最 经 典 的 案例 应 该 是 美国 的 亚马逊 电子 商务 网 
站 ， 它 是 全 球 最 大 的 B2C 电 商 网 站 之 一 ， 在 公司 创立 之 初 ， 最 为 出 名 的 就 是 其 丰富 的 图 书 品类 ， 以 及 相应 的 推荐 技术 。 该 公司 的 推荐 销售 占 比 可 以 达到 整体 销售 的 30% 左 右 。 亚 马 逊 的 推荐 系统 会 根据 用 户 
的 历史 行为 ， 推 荐 更 符合 他 /她 预期 的 商品 。 比 如 ， 从 某 位 上 T 宅 男 的 亚马逊 主页 可 以 看 出 (如 图 10-1 所 示 ) ， 亚 马 逊 根据 其 个 人 的 浏览 记录 ， 产 生 了 一 个 综合 的 推荐 栏 位 ， 且 此 栏 位 占据 了 首页 不 少 的 资源 
位 。 从 推荐 的 内 容 来 看 此 用 户 对 大 数据 和 互联 网 技术 很 感 兴趣 ， 同 时 最 近 也 非常 关注 智能 小 家 电 。 事 实 上 ， 我 们 公司 也 很 需要 这 项 技术 ， 如 此 一 来 不 用 被 动 地 等 待 用 户 输入 关键 词 ， 就 能 产生 潜在 的 销售 机 
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图 10-1 某 位 用 户 亚 马 示 主页 的 推荐 内 容 





“原来 是 这 样 啊 ， 这 个 课题 我 之 前 也 有 所 了 解 。” 这 番 谈 话 马上 就 让 大 宝 就 想起 了 小 明 在 介绍 搜索 引擎 的 时 候 曾经 提 到 过 推荐 系统 ， 他 接着 说 道 : 




















“通常 ， 我 们 认为 传统 的 搜索 主要 是 利用 全 体 用 户 的 整体 行为 ， 而 推荐 则 更 侧重 于 挖掘 个 人 的 喜好 。 另 外 ， 搜 索 会 要 求 用 户 输入 具体 的 关键 词 ， 而 推荐 往往 没有 要 求 明确 的 查询 条 件 ， 主 要 是 通过 用 户 
之 前 的 历史 行为 数据 ， 以 及 当下 的 应 用 场景 ， 然 后 根据 算法 分 析 进 行 大 致 的 推测 。 所 以 推荐 相对 于 搜索 而 言 ， 会 更 模糊 一 些 ， 也 更 具有 挑战 性 。 具 体 的 方案 我 还 要 和 专家 一 起 商量 制定 。 














“不 愧 是 我 们 的 技术 大 牛 ， 好 了 ， 这 个 需求 交 给 你 我 就 放心 了 。 我 接着 去 忙 那个 市 场 策划 案 了 。 





























回 到 自己 的 座位 之 后 ， 大 宝 开始 陷入 沉思 。 虽 然 之 前 对 推荐 系统 也 有 所 耳闻 ， 但 是 对 其 主要 概念 、 核 心 要 素 和 流程 框架 还 缺乏 系统 的 理解 ， 于 是 他 再 次 将 业界 经 验 丰富 的 表 哥 约 到 了 茶室 。 











“大 宝 ， 你 的 情况 我 基本 了 解 了 。 推 荐 系统 虽然 和 搜索 引擎 有 关联 ， 但 是 其 设计 和 开发 通常 会 更 加 复杂 一 些 。 所 以 ， 我 们 还 是 先 回 顾 一 下 理论 的 知识 。” 


四 来 自 英文 up sell， 就 是 让 顾客 购买 更 贵 或 更 多 的 商品 来 达到 增加 销售 额 的 目的 。 


10.1 推荐 系统 的 基本 概念 





























广义 上 来 讲 ， 推 荐 是 一 种 为 用 户 提供 建议 ， 帮 助 其 挑选 物品 并 做 出 最 终 决策 的 技术 。 例 如 ， 为 用 户 展示 热 销 商品 的 排行 榜 就 是 一 种 推荐 。 当 然 ， 推 荐 热门 物品 的 技术 难度 并 不 高 ， 用 户 转化 率 也 不 一 定 
很 理想 ， 所 以 这 里 将 探讨 个 性 化 的 推荐 。 个 性 化 推荐 系统 是 建立 在 海量 数据 挖 所 基础 上 的 一 种 高 级 信息 检索 平台 ， 它 会 根据 用 户 所 处 的 情景 ， 以 及 用 户 的 兴趣 特点 ， 向 其 推荐 可 能 感 兴趣 的 信息 和 商品 。 搜 
索 和 推荐 引擎 天 生 就 是 一 对 挛 生 兄弟 。 之 所 以 是 兄弟 ， 是 因为 它们 都 是 人 们 查找 信息 的 工具 。 这 点 就 决定 了 这 两 者 所 需要 处 理 的 数据 ， 以 及 返回 给 用 户 的 信息 往往 都 是 同 质 的 。 但 是 它们 也 有 很 明显 的 不 同 
之 处 ， 具 体 如 下 。 


























































































































“ 传统 的 搜索 利用 的 是 集体 行为 ， 而 推荐 则 是 挖 气 个 人 或 少数 人 的 行为 。 所 谓 集体 行为 ， 就 是 在 命中 关键 词 之 后 ， 搜 索 会 查看 大 部 分 的 用 户 关心 的 是 什么 信息 ， 最 后 返回 结果 [1 。 而 推荐 则 直接 查看 当 
前 用 户 的 历史 行为 和 所 处 的 情景 ， 猜 测 他 /她 最 关心 的 是 什么 信息 。 


“ 搜索 的 输入 是 明确 的 关键 词 ， 而 推荐 往往 没有 明确 的 查询 条 件 。 搜 索引 擎 越 来 越 为 我 们 所 熟悉 ， 在 查询 框 里 输入 若干 关键 词 是 必 不 可 少 的。 而 推荐 只 要 有 这 个 用 户 之 前 的 历史 行为 数据 ， 包 括 查 询 、 
浏览 、 购 买 等 ， 就 可 以 根据 算法 分 析 进 行 大 致 的 推测 ， 查 询 关 键 词 并 不 是 必须 的 。 











举 个 更 形象 的 例子 ， 当 用 户 输入 关键 词 “ 中 国美 食 ”， 那 么 搜索 引擎 会 返回 时 下 关于 美食 的 各 种 热门 话题 或 商品 ， 包 括 各 大 菜系 的 历史 文化 、 各 地 著名 的 餐馆 、 美 食 主题 的 狂欢 节 等 。 而 推荐 引擎 则 会 
根据 这 个 用 户 之 前 的 喜好 ， 猜 测 他 /她 更 偏爱 对 历史 文化 的 研究 ， 可 能 在 其 还 没有 下 达 任 何 查询 指令 的 时 候 ， 就 已 经 推荐 给 他 /她 更 多 与 文化 相关 的 文章 或 商品 。 搜 索 应 对 的 是 用 户 相对 明确 的 信息 需求 ， 需 
要 高 效率 的 查询 性 能 。 而 推荐 则 无 需 用 户 的 明确 需求 ， 因 此 更 加 注重 算法 的 精准 性 。 





























































































































正 因 为 推荐 具有 无 需 用 户主 动 输入 的 特点 ， 所 以 它 对 搜索 行为 可 以 起 到 很 好 的 补充 作用 ， 主 要 包括 如 下 几 个 方面 。 




















“ 增加 物品 被 浏览 、 被 销售 的 数量 。 用 户 在 没有 任何 查询 的 情况 下 ， 同 样 也 可 以 看 到 他 /她 可 能 感 兴趣 的 物品 ， 这 个 更 符合 线 下 “ 违 街 ”的 感觉， 更 容易 增加 向 上 销售 (Up Sell) 和 关联 销售 (Cross 
Sell) ， 让 用 户 买 得 更 多 。 


:出售 多 样 化 的 商品 。 搜 索 通常 都 会 返回 畅销 品 ， 使 得 小 众 的 、 新 颖 的 长 尾 (Long-tail) 物品 曝光 率 不 够 高 。 但 这 并 不 代表 某 个 顾客 不 喜欢 这 类 物品 。 推 荐 能 够 根据 用 户 的 喜好 ， 向 他 们 提供 发 现 新 奇 物 


品 的 机 会 。 


“ 增加 用 户 的 满意 度 和 患 诚 度 。 相 对 于 搜索 ， 良 好 的 推荐 更 容易 让 用 户 觉 得 系统 更 “ 懂 ” 人 心 ， 长 期 使 用 自然 会 增加 用 户 的 好 感 和 黏度 。 如 果 持 续 针对 这 些 用 户 行为 进行 数据 挖 据 ， 并 进一步 优化 推荐 
系统 ， 那 么 用 户 的 满意 度 会 明显 提升 ， 这 样 就 可 以 缓解 互联 网 站 点 普遍 存在 的 用 户 忠诚 度 较 低 的 问题 。 


四 个 性 化 的 搜索 排序 除外 。 


10.2 ”推荐 的 核心 要 素 











推荐 引擎 的 系统 和 算法 发 展 至 今 ， 已 有 二 十 多 年 的 历史 ， 各 种 方法 层出不穷 。 为 了 让 大 家 更 好 地 理解 主流 趋势 ， 下 面 先 来 归纳 一 下 推荐 的 3 大 要 素 。 











10.2.1 系统 角色 





























抽象 来 看 ， 推 荐 系统 中 一 般 有 4 个 重要 的 角色 : 用 户 、 物 品 、 情 景 和 匹配 引 警 。 用 户 是 系统 的 使 用 者 ， 物 品 就 是 将 要 被 推荐 的 候选 对 象 ， 情 景 是 推荐 时 所 处 的 环境 ， 而 引擎 就 是 用 于 匹配 用 户 和 物品 的 核 
心 技术 。 例 如 ， 亚 马 逊 网 站 的 顾客 就 是 用 户 ， 网 站 所 销售 的 商品 就 是 物品 ， 浏 览 的 地 理 位 置 和 时 间 就 是 情景 ， 而 研发 团队 提供 的 关键 算法 就 是 匹配 引擎 。 因 此 ， 推 荐 系统 可 以 认为 是 在 一 定 的 情景 下 ， 比 较 
户 的 信息 需求 和 物品 特征 信息 ， 使 用 相应 的 匹配 算法 进行 计算 筛选 ， 最 终 向 用 户 推荐 其 可 能 感 兴趣 的 物品 。 最 后 ， 值 得 注意 的 是 ， 这 里 用 户 的 角色 都 是 现实 中 的 自然 人 ， 同 时 ， 某 些 场景 下 被 推荐 的 物品 
角色 可 能 也 是 现实 中 的 自然 人 。 例 如 ， 一 个 招聘 网 站 会 向 企业 雇主 推荐 合适 的 人 才 ， 这 时 候 应 聘 者 担当 的 就 是 物品 的 角色 。 如 果 向 应 聘 者 推荐 合适 的 企业 和 雇主， 那么 雇主 担当 的 就 是 物品 的 角色 。 针 对 这 种 
特殊 情况 我 们 不 会 做 单独 说 明 ， 这 里 并 非 说 将 人 或 企业 当 作 物品 来 买卖 ， 而 只 是 为 了 区 分 推荐 系统 中 的 不 同 角色 ， 以 便于 后 面 的 解释 。 





















































































































































































































































10.2.2 ”相似 度 


推荐 一 般 是 基于 如 下 这 样 2 个 假设 来 进行 的 。 





“ 假设 用 户 对 物品 a 感 兴趣 ， 那 么 和 a 相 似 的 物品 b、c、d 也 会 引起 他 /她 的 兴趣 。 


' 假设 用 户 B 和 用 户 A 相 似 ， 那 么 B 感 兴趣 的 物品 也 会 引起 A 的 兴趣 。 


























此 ， 推 荐 在 很 大 程度 上 要 关注 如 何 衡量 物品 之 间 的 相似 度 ， 以 及 用 户 之 间 的 相似 度 。 这 里 的 相似 度 和 第 一 篇 中 分 类 、 聚 类 算法 使 用 的 相似 度 的 概念 相仿 。 此 外 ， 你 也 可 能 会 问 这 里 的 “相似 度 ” 和 搜 
索引 警 的 “相关 性 ”有 什么 区 别 ? 两 者 之 间 也 有 关联 ， 主 要 是 应 用 场景 不 同 。 搜 索 里 是 将 用 户 输入 的 条 件 和 待 查询 的 数据 进行 匹配 ， 两 者 是 不 对 等 的 ， 因 此 业界 称 为 相关 性 ; 推荐 里 没有 用 户 的 主动 输入 ， 
而 是 通过 研究 物品 和 物品 之 间 、 用 户 和 用 户 之 间 存 在 多 少 相似 的 特征 ， 来 达到 建议 的 目的 。 相 比较 的 对 象 都 是 对 等 的 ， 因 此 业界 称 之 为 相似 度 。 从 技术 实现 的 角度 来 理解 ， 相 似 度 和 相关 性 是 互通 的 ， 因 此 

相似 度 同样 也 可 以 利用 向 量 空间 模型 (VSM ) 、 概 率 模型 等 来 刻 
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10.2.3 ”相似 度 传播 框架 




















现实 生活 中 的 推荐 ， 常 常 来 源 于 “ 口 口 相传 ”， 这 点 同样 适用 于 线 上 。 例 如 我 们 可 以 利用 相似 度 的 传播 性 ， 进 一 步 帮助 用 户 发 现 更 多 潜在 的 兴趣 。 例 如 ， 如 果 物 品 a 和 b 相 似 ，b 和 c 相 似 ， 那 么 a 和 c 也 可 
存在 一 定 的 相似 度 。 















































10.3 ”推荐 系统 的 分 类 





在 了 解 了 核心 要 素 之 后 ， 就 可 以 根据 这 些 来 对 推荐 系统 进行 划分 了 。 
首先 ， 按 照 推 荐 依据 来 进行 划分 ， 可 以 分 为 如 下 三 类 。 


“ 基于 物品 : 给 定 物 品 a 后 ， 按 照 其 他 物品 和 a 相似 度 的 高 低 来 进行 推荐 。 典 型 的 应 用 场景 就 是 在 浏览 商品 详情 页 时 ， 左 侧 的 “看 了 此 商品 的 还 看 了 ”“ 买 了 此 商品 的 还 买 了 ”等 推荐 栏 位 ， 如 图 10-2 中 左 


框 标 出 的 列表 ， 推 荐 了 和 当前 苹果 类 似 的 其 他 水 果 。 


阔 


陕西 洛 川 精品 红 富士 苹果 8 粒 装 











东 精 品 红 高 士 草 果 8 粒 对 单果 














【商品 名 称 】: 陕西 洛 川 精品 红 富 士 苹果 

【 规 格 】: 6 粒 装 直径 80-85mm 约 1. 4kg 
【 产 地 】〗】:， 陕西 洛 川 

【 保 质 期 】: 2-3 天 

【贮存 方式 】: 常温 ， 冷 藏 更 佳 

【 温 声 提示 】: 肾炎 和 糖尿 病 种 者 不 宜 多 吃 苹果 


图 10-2 ”基于 物品 推荐 的 示例 ， 针 对 某 款 苹 果 的 左 侧 推荐 栏 位 





“ 基于 用 户 : 给 定 用 户 A 后 ， 按 照 其 历史 行为 所 构建 的 用 户 模型 来 推荐 。 典 型 的 应 用 场景 就 是 个 性 化 首页 中 的 “ 猜 你 喜欢 ”模块 ， 如 图 10-3 所 示 ， 此 位 顾客 一 定 是 一 位 时 尚 达 人 。 











猜 你 喜欢 
今日 18:-00 更 新 


固 今 日 推荐 -1 天 3 波 园 女 神 店 一 美人 装 
958.2 万 人 正在 进 店 521.3 万 人 正在 违 店 


有 FF Bo 
和 作 各 


固 男人 帮 一 有 型 潮 装 回 有 腔调 一 超 有 设计 感 
80.4 万 人 正在 进 店 130.5 万 人 正在 进 店 


实时 推荐 最 适合 你 的 宝贝 





图 10-3 ”基于 用 户 推 荐 的 示例 ， 针 对 菜 位 用 户 喜 好 的 推荐 


“ 基于 情景 (Scenario) : 情景 也 可 以 翻译 为 场景 、 情 境 ， 业 界 还 有 人 称 之 为 上 下 文 (Context) ， 其 本 身 并 没有 严格 的 定义 ， 简 单 来 说 就 是 指 用 户 所 处 的 信息 环境 。 用 户 浏览 的 网 页 、 所 处 的 地 理 位 置 、 


当时 的 季节 和 气温 等 ， 都 可 以 算 在 这 个 范畴 之 内 。 在 很 多 推荐 应 用 中 ， 仅 仅 只 考虑 用 户 和 物品 很 可 能 是 不 够 的 。 在 某 些 特定 场景 下 ， 将 环境 信息 整合 到 推荐 流程 也 是 必要 的 ， 例 如 对 于 度假 旅行 的 线路 ， 夏 
季 建议 承德 避暑 山庄 是 很 棒 的 主意 ， 而 冬季 最 好 是 建议 海南 沙滩 狂欢 节 。 还 有 ， 中 午饭 点 到 了 ， 在 寻找 餐厅 的 时 候 你 当然 希望 是 就 近 解 决 ， 对 于 需要 1 小 时 才能 到 达 的 地 点 你 的 肚子 可 能 不 会 乐意 。 图 10-4 就 
会 告诉 你 ， 在 上 海天 山路 附近 有 哪些 美食 ， 排 名 前 几 位 的 离 你 当前 距离 都 没有 超过 700 米 。 不 难看 出 ， 移 动 端的 应 用 更 符合 情景 模式 下 的 推荐 。 

















附近 美食 ~ 





智能 排序 ”筛选 ~ 


丰收 日 (天 山路 图 回回 区 
OOOOO ¥116/ 人 
天 山 宁波 菜 <100m 





大 长 金 韩国 家 庭 料 .. 贺 园 


DOOGOD Y52/ 人 8.3 折 起 
北新 泾 韩国 料理 550m 


OOOO ¥75/ 人 
北新 泾 川菜 630m 


都 将 府 
DDDOOD Y199/ 人 新 店 
天 山 日 本 210m 





hn a zh Eu Fy 


ev = 了 XUDTIEI\D Bd Wal ME Ma 
人 人 人, 这 
了 DODOD ¥91/ 人 4.4 折 起 | 





@ 上 海天 山路 











10-4 基于 场景 的 示例 ， 针 对 当前 地 理 位 置 的 推荐 








“那么 这 3 种 推荐 依据 各 有 什么 特点 呢 ? ”好 奇 的 大 宝 再 次 发 问 。 
































“使 用 物品 作为 推荐 的 依据 ， 需 要 较为 完善 的 物品 信息 数据 ， 例 如 标题 、 产 地 、 颜 色 、 口 味 等 与 领域 相关 的 属性 。 一 旦 拥有 这 些 数 据 ， 即 使 不 需要 有 用 户 访问 物品 的 记录 ， 也 能 进行 推荐 ， 这 种 模式 比 
较 适 合用 户 访问 量 还 不 大 的 系统 。 使 用 用 户 作 为 依据 时 ， 可 以 不 需要 太 多 与 物品 相关 的 信息 ， 但 是 需要 累计 用 户 的 访问 日 志 ， 需 要 一 定 的 流量 基础 ， 否 则 会 面临 冷 启动 的 问题 (系统 无 法 在 量 级 非常 有 限 的 
数据 集 上 进行 有 效 的 计算 和 挖掘 ) 。 使 用 情景 作为 线索 来 推荐 时 ， 对 物品 和 用 户 的 数据 要 求 都 会 降低 ， 代 价 是 需要 额外 收集 用 户 所 处 的 场景 ， 例 如 地 理 位 置 ， 这 种 模式 不 仅 需要 获得 用 户 的 许可 ， 而 且 还 要 
进行 实时 的 更 新 。” 




































































































































































另外 ， 按 照相 似 度 的 定义 来 划分 ， 可 分 为 如 下 四 类 ， 具 体 如 下 。 


“ 基于 内 容 : 其 关键 是 通过 人 工 运 营 或 自动 抽取 的 特征 进行 推荐 。 以 博客 的 文章 作为 示例 ， 假 设 它 是 物品 角色 ， 那 么 它 的 内 容 特征 可 以 包括 文章 的 标题 、 文 体 、 作 者 和 时 间 等 。 而 对 于 用 户 角色 ， 内 容 
特征 一 般 是 人 口 统计 学 信息 等 ， 比 如 年 龄 、 性 别 、 地 区 、 职 业 、 爱 好 等 。 因 此 ， 基 于 内 容 的 推荐 需要 考虑 是 否 有 自动 化 的 技术 能 够 帮助 运营 人 员 来 便捷 地 获取 这 些 特 征 ， 如 何 维护 并 持续 更 新 ， 以 及 如 何 通 
过 这 些 数据 进行 相似 度 的 计算 。 如 果 这 些 都 能 够 实现 ， 那 么 基于 内 容 的 方法 将 会 有 着 明显 的 优势 : 无 需 任 何 用 户 的 访问 行为 ， 仅 仅 根据 内 容 特 征 ， 就 可 以 进行 基于 物品 或 基于 用 户 的 推荐 。 此 外 ， 在 特定 的 
领域 中 ， 人 工 的 标注 会 提供 更 有 价值 的 线索 ， 提 升 推荐 的 满意 度 。 


“ 基于 知识 : 这 种 方式 和 基于 内 容 的 推荐 比较 相近 ， 只 不 过 多 了 一 些 通过 人 类 知识 定义 的 逻辑 规则 ， 因 此 需要 人 为 地 提供 大 量 专业 领域 的 知识 ， 构 建成 体系 的 知识 库 ， 并 和 用 户 产生 交互 。 根 据 用 户 交 
互 的 形式 ， 又 可 以 细 分 为 基于 约束 的 和 基于 实例 的 推荐 。 两 者 的 形式 比较 类 似 ， 都 是 让 用 户 指定 需求 ， 然 后 推荐 系统 给 出 答案 。 如 果 找 不 到 合理 的 结果 ， 用 户 需要 再 次 修改 需求 。 这 个 方式 和 搜索 更 为 接 
近 ， 需 要 用 户 投入 较 多 的 精力 ， 可 惜 在 互联 网 时 代 ， 用 户 都 是 爱 偷懒 的 ， 很 少 有 人 愿意 这 么 做 。 综 合 考虑 建立 知识 体系 和 用 户 参 与 的 成 本 ， 这 个 方法 更 多 地 只 限于 学 术 研究 。 当 然 ， 它 也 有 更 为 精准 的 优 
势 。 

“ 基于 用 户 行为 : 这 种 方法 是 根据 用 户 和 物品 之 间 的 关系 (区 别 于 人 与 人 之 间 的 交互 ) 进行 推荐 。 物 品 和 物品 之 间 的 相似 度 ， 可 以 不 再 通过 内 容 特征 来 进行 计算 ， 而 是 通过 用 户 访问 来 刻画 。 例 如 ， 物 
品 a 经 常 被 用 户 A、B、C 访 问 ， 而 物品 b 同 样 也 经 常 被 A、B、C 访 问 ， 那 么 我 们 认为 物品 ai 和 b 之 间 也 有 相似 度 。 最 著名 的 协同 过 滤 (Collaborative Filtering) 就 是 这 方面 的 典型 案例 。 不 过 需要 注意 的 是 ， 协 同 过 
滤 虽 然 最 早 是 完全 利用 用 户 访问 物品 这 种 行为 关系 来 进行 的 ， 但 时 至 今日 ， 已 经 有 很 多 其 他 的 方式 也 整合 到 其 中 ， 协 同 过 滤 更 偏向 于 一 种 推荐 的 框架 ， 后 面 在 介绍 相似 度 传播 时 会 详细 介绍 。 相 对 于 基于 内 
容 和 知识 的 方式 ， 基 于 行为 的 前 期 运营 成 本 很 低 ， 只 要 累积 用 户 流量 就 能 达到 推荐 的 目的 ， 不 过 精准 度 往往 不 如 前 两 者 高 。 


“ 基于 社交 和 社区 : 这 种 方式 是 通过 用 户 之 间 的 关系 来 进行 推荐 的 。 最 近 几 年 ， 随 着 Web 2.0 时 代 的 到 来 ， 用 户 社交 网 络 迅 猛 发 展 ， 大 家 可 以 建立 朋友 圈 、 发 表 观 点 、 相 互 评论 和 点 赞 。 这 些 都 促使 推荐 
系统 诞生 了 新 兴 的 方式 ， 比 如 根据 人 与 人 之 间 的 交互 行为 ， 判 断 用 户 之 间 的 相似 程度 等 。 其 优势 在 于 ， 如 果 用 户 之 间 存 在 相似 度 ， 那 么 可 信 度 就 会 较 高 ， 推 荐 效果 也 会 更 理想 。 不 过 ， 该 方法 对 于 数据 源 的 
要 求实 在 有 些 高 ， 很 多 时 候 我 们 无 法 保证 推荐 系统 能 够 获得 用 户 的 社交 信息 。 


下 面 是 按照 相似 度 传播 [方式 来 进行 划分 。 
“ 无 传播 : 通常 是 基于 内 容 和 知识 的 推荐 ， 都 没有 考虑 用 户 对 物品 的 访问 行为 。 


“ 协同 过 滤 〈Collaborative Filtering) : 协同 过 滤 主 要 是 基于 最 直观 的 “ 口 口 相传 ”， 其 主要 思路 就 是 利用 已 有 用 户 群 过 去 的 行为 或 意见 ， 预 测 当前 用 户 最 可 能 喜欢 哪些 东西 。 根 据 推荐 依据 和 传播 的 路 
径 ， 又 可 以 进一步 细 分 为 基于 用 户 的 过 滤 和 基于 物品 的 过 滤 。 












































基于 用 户 的 协同 过 滤 是 指 给 定 一 个 用 户 访问 (假设 访问 就 表示 有 兴趣 ) 物品 的 数据 集合 ， 找 出 和 当前 用 户 历史 行为 有 相似 偏好 的 其 他 用 户 ， 将 这 些 用 户 组 成 “近邻 ”。 然 后 对 于 当前 用 户 没有 访问 过 的 
物品 ， 利 用 其 近邻 的 访问 记录 来 进行 预测 。 根 据 访问 关系 图 10-5 来 看 ， 用 户 A 访 问 了 物品 a 和 c， 用 户 B 访 问 了 物品 bp， 用 户 C 访 问 了 物品 a、c 和 d。 我 们 可 以 计算 出 用 户 C 是 A 的 近邻 ， 而 B 不 是 。 因 此 系统 会 向 
A 推荐 C 访 问 过 的 物品 d。 


























































































































基于 物品 的 协同 过 滤 是 指 利用 物品 的 相似 度 ， 而 不 是 用 户 间 的 相似 度 来 计算 预测 值 。 在 图 10-6 中 ， 物 品 a 和 c 因 为 都 被 用 户 A 和 B 同 时 访问 ， 因 此 认为 它们 的 相似 度 更 高 。 当 用 户 C 访 问 过 物品 a 后 ， 物 品 c 
也 会 被 推荐 给 他 /她 。 












































相似 











10-5 基于 用 户 的 协同 过 滤 原 理 

















10-6 ”基于 物品 的 协同 过 滤 原 理 


























“看 上 去 ， 基 于 物品 和 基于 用 户 的 方式 差不多 嘛 ， 只 是 观察 数据 的 先后 顺序 不 同 而 已 啊 ! ”大 宝 产 生 了 疑惑 。 

















小 明 : “ 别 小 看 这 个 差异 哦 ， 由 于 传播 的 方向 不 同 ， 基 于 用 户 和 基于 物品 也 会 有 一 些 区 别 ， 下 面 就 来 介绍 一 下 它们 的 区 别 。 

















“ 准确 性 : 推荐 系统 的 准确 性 在 很 大 程度 依赖 于 系统 中 用 户 数 和 物品 数 之 间 的 比例 。 通 常情 况 下 ， 一 小 部 分 相似 度 高 的 用 户 ， 其 价值 远 远 高 于 一 大 部 分 相似 度 较 低 的 近邻 。 对 于 用 户 数量 远 远 大 于 物品 
数量 的 大 型 商业 系统 (例如 一 个 B2C 的 购物 网 站 ) ， 如 果 用 户 之 间 的 区 分 度 不 够 ， 那 么 将 会 很 难 界定 哪些 是 真正 高 相似 度 的 用 户 ， 因 此 采用 基于 物品 的 协同 过 滤 会 更 为 精准 。 同 理 ， 对 于 物品 数量 远 远大 于 
用 户 数 量 的 系统 (例如 内 部 文献 系统 ) ， 采 用 基于 用 户 的 协同 过 滤 则 更 为 精准 。 


“ 高效 性 : 虽然 数据 挖 据 的 部 分 是 离线 计算 ， 并 不 要 求实 时 返回 结果 ， 但 我 们 也 不 希望 消耗 的 时 间 过 于 离谱 ， 更 何况 ， 目 前 有 些 应 用 已 经 需要 实时 性 的 挖 气 结 果 。 当 用 户 数量 远 远大 于 物品 数量 时 ， 物 
品 的 相似 度 计算 所 消耗 的 资源 要 远 远 小 于 用 户 的 相似 度 计 算 ， 因 此 基于 物品 协同 过 滤 的 效率 会 更 高 。 反 之 ， 基 于 用 户 的 协同 过 滤 会 更 高 效 。 


“ 稳定 性 : 物品 和 用 户 总 是 在 不 断 地 发 生变 化 。 变 化 就 意味 着 用 户 和 物品 之 间 的 关系 需要 更 新 ， 协 同 过 滤 的 结果 也 需要 相应 地 发 生 改 变 。 如 果 系统 中 物品 的 集合 比 用 户 集 合 更 稳定 ， 那 么 基于 物品 的 方 
法 会 避免 频 繁 地 数据 计算 和 更 新 ， 因 此 更 适用 一 些 。 反 之 ， 基 于 用 户 的 方法 会 更 适用 于 用 户 集 合 相 对 稳定 的 系统 。 








介绍 完了 基于 用 户 和 物品 的 协同 过 滤 ， 现 在 来 看 看 基于 聚 类 的 协同 过 滤 和 多 次 协同 过 滤 。 





















































基于 聚 类 的 协同 过 滤 是 基于 用 户 协 同 过 滤 的 变种 ， 其 中 用 户 的 角色 被 替换 为 一 组 具有 类 似 兴趣 的 用 户 ， 可 以 认为 上 述 “ 近 邻 ”就 是 一 种 用 户 集合 。 这 样 就 会 使 得 相似 度 传播 的 范围 更 为 广泛 ， 但 是 精确 
度 会 有 所 下 降 。 













































































如 果 说 基于 聚 类 的 过 滤 是 将 用 户 节点 进行 合并 的 话 ， 那 么 多 次 协同 过 滤 就 是 在 用 户 和 物品 之 间 添 加 更 多 的 访问 连 线 。 例 如 ， 第 一 次 协同 过 滤 计 算 之 后 ， 我 们 会 推荐 给 用 户 A 物 品 d， 那 么 在 第 二 次 过 滤 
中 ， 我 们 可 以 假设 A 就 是 喜欢 d 的 ， 并 作为 既成 事实 的 数据 加 入 计算 。 同 理 ， 这 也 会 通过 牺牲 精确 度 来 换取 更 多 的 推荐 结果 。 




































































“从 无 传播 ， 到 协同 过 滤 ， 再 到 更 多 层级 的 相似 度 传播 ， 可 以 看 到 精准 性 会 越 来 越 差 ， 但 是 新 颖 度 会 越 来 越 高 ， 可 能 会 给 用 户 带 来 一 定 的 惊喜 ， 在 实际 应 用 中 这 方面 的 取舍 是 需要 仔细 权衡 的 。“ 











“谢谢 小 明 哥 的 经 验 之 谈 !“ 


四 这 里 的 传播 是 指 相似 度 通过 物品 和 用 户 两 种 角色 之 间 的 交互 关系 进行 扩散 。 


10.4 混合 模型 





























看 了 如 此 多 的 推荐 分 类 ， 它 们 在 不 同 的 应 用 领域 表现 出 的 效果 各 有 干 秋 ， 也 各 有 优 劣 。 因 此 ， 业 界 也 会 考虑 构造 一 种 混合 的 体系 ， 结 合 不 同 算法 和 模型 的 优点 ， 尽 量 克 服 单个 方法 所 面临 的 缺陷 和 问 
题 。 混 合 的 方式 大 体 上 可 以 分 为 微观 混合 和 宏观 混合 。 





“ 微观 混合 : 将 不 同 的 特征 混合 起 来 使 用 ， 例 如 将 基于 内 容 和 基于 用 户 行为 的 相似 度 计算 结合 起 来 ， 这 样 基于 内 容 的 方式 就 可 以 加 入 协同 过 滤 的 传播 框架 ， 解 决 其 所 面临 的 冷 启 动 问题 。 或 者 是 将 用 户 
的 社交 信息 加 入 用 户 近邻 的 选择 ， 增 加 协同 过 滤 推 荐 的 可 信任 度 。 


“ 宏观 混合 : 相对 于 微观 混合 ， 宏 观 的 方式 不 关心 特征 的 合并 ， 而 是 更 注重 将 不 同 推荐 系统 的 结果 有 机 地 结合 起 来 。 只 要 是 能 推送 结果 的 系统 ， 都 可 以 加 入 进来 ， 因 此 这 种 方式 更 为 灵活 。 例 如 ， 我 们 
可 以 让 基于 用 户 、 基 于 物品 和 基于 情景 的 三 个 系统 同时 工作 ， 然 后 根据 合并 、 加 权 和 轮 播 等 的 方式 进行 混合 。 


10.5 ”系统 架构 














综合 上 述 内 容 来 看 ， 推 荐 系统 的 主要 模块 分 为 数据 收集 、 用 户 建 模 、 物 品 建 模 、 推 荐 算法 、 混 合 模块 ， 结 果 存 储 、 前 端 展示 和 查询 引擎 ， 其 中 大 部 分 都 是 离线 的 操作 。 








离线 部 分 涉及 如 下 内 容 。 


“ 用 户 建 模 : 根据 用 户 的 人 口 统计 学 信息 和 用 户 行为 数据 ， 建 立 用户 画 像 等 模型 ， 刻 画 其 短期 和 中 长 期 的 兴趣 。 


“ 物品 建 模 : 根据 物品 的 领域 属性 ， 以 及 用 户 访问 这 些 物品 的 数据 ， 建 立 物品 画像 模型 ， 刻 画 其 本 质 特 征 。 


“ 推荐 算法 : 根据 用 户 和 物品 的 建 模 ， 通 过 不 同 的 推荐 方式 进行 演算 ， 最 终 找到 与 用 户 或 物品 输入 相 匹配 的 推荐 物品 。 





“ 混合 模块 : 
入 在 线 部 分 来 处 理 。 


诺 


据 不 同 的 混合 策略 ， 将 多 种 方式 的 推荐 结果 进行 合并 。 因 为 考虑 到 实时 性 ， 一 般 都 是 进行 离线 处 理 。 当 然 ， 如果 系 统 足 够 轻 量 级 ， 混 合 逻 辑 并 不 复杂 ， 数 据 量 也 足够 小 ， 那 么 也 可 以 放 





“ 结果 存储 : 将 推荐 算法 的 挖 据 结果 保存 下 来 ， 以 便于 在 线 的 实时 访问 ， 倒 排 索引 同样 是 不 错 的 选择 。 当 这 些 结果 数据 达到 一 定 的 规模 ， 或 者 是 包含 了 比较 复杂 的 商业 远 辑 时 ， 可 以 考虑 直接 使 用 搜索 
引擎 来 协助 。 


在 线 部 分 涉及 如 下 内 容 。 


“ 数据 收集 : 因为 用 户 行为 会 作为 很 多 推荐 算法 的 数据 来 源 ， 因 此 需要 通过 Flume 之 类 的 框架 来 收集 用 户 访问 的 日 志 。 当 然 ， 用 户 使 用 推荐 和 搜索 引擎 本 身 的 数据 也 会 被 记录 ， 并 以 此 来 对 之 后 的 算法 做 
进一步 的 优化 。 


:前端 展示 : 这 部 分 是 接收 网 页 或 移动 设备 发 送 过 来 的 推荐 请 求 ， 并 经 过 必要 的 初步 处 理 之 后 向 推荐 后 端 引擎 进行 传递 ， 并 在 拿 到 后 端 返回 的 结果 之 后 返回 给 前 端 用 户 。 


“ 查询 引擎 : 推荐 系统 的 复杂 逻辑 基本 上 都 是 在 离线 部 分 完成 的 ， 因 此 通常 情况 下 在 线 查 询 只 需要 使 用 缓存 或 搜索 这 样 的 高 效 检索 系统 来 完成 就 行 了 。 








最 后 ， 整 体 的 系统 框架 示意 图 如 图 10-7 所 示 。 














数据 
ET 
行为 数据 


外 部 数据 ( 例 
物品 建 模 如 人 口 统计 特 
征 ， 商 品 属性 ) 


混合 模块 倒 排 索引 





图 10-7 ”推荐 引擎 常见 的 系统 架构 


10.6 ”Mahout 中 的 推荐 算法 




















在 第 一 篇 有 关机 器 学 习 算 法 和 工具 的 部 分 ， 我 们 就 已 经 介绍 了 Apache 的 Mahout (http://mahout.apache.org) 。 这 个 开源 项 目 最 早 窑 露头 角 之 时 ， 其 推荐 算法 的 实现 就 为 人 所 知 了 。Mahout 主 要 实 
现 了 基于 协同 过 滤 的 方法 ， 包 括 基于 用 户 的 推荐 和 基于 物品 的 推荐 。 在 Mahout 的 推荐 场景 中 ， 用 户 对 物品 的 偏好 形成 了 一 个 二 维和 矩阵 ， 并 将 一 个 用 户 对 所 有 物品 的 偏好 作为 一 个 向 量 来 计算 用 户 之 间 的 相 
似 度 ， 或 者 将 所 有 用 户 对 某 个 物品 的 偏好 作为 一 个 向 量 来 计算 物品 之 间 的 相似 度 。Mahout 关 于 相似 度 计算 的 实现 都 是 基于 向 量 的 距离 来 进行 的 ， 距 离 越 近 相似 度 越 大 。Mahout 对 于 相似 近邻 的 选择 也 值得 
一 提 。 上 文 提 到 过 ， 协 同 过 渡 的 推荐 中 ， 需 要 选择 和 当前 用 户 兴趣 或 物品 特性 类 似 的 近邻 。 近 邻 的 计算 对 于 推荐 数据 的 生成 是 至 关 重 要 的 ，Mahout 划 分 邻居 的 方法 有 两 类 ， 具 体 如 下 。 






















































































































































































“ 国定 数量 的 近邻 : 用 “最 近 ” 的 KK 个 用 户 或 物品 作为 邻居 。 如 图 10-8 所 示 ， 假 设 要 计算 点 1 的 5 个 邻居 ， 那么 根据 点 之 间 的 距离 ， 我 们 取 最 近 的 5 个 点 ， 分 别 是 点 2、 点 3、 上 点 4、 点 7 和 点 5。 很 明显 可 以 看 
出 ， 因 为 要 取 国 定 个 数 的 邻居 ， 因 此 这 种 方法 对 于 孤立 点 的 计算 效果 不 太 好 。 当 它 附 近 没有 足够 多 的 相似 点 时 ， 就 会 被 迫 取 一 些 不 太 相似 的 点 作为 邻居 ， 这 样 就 影响 了 近邻 相似 的 程度 ， 比 如 在 图 10-8 中 ， 
点 1 和 点 5 其 实 并 不 是 很 相似 。 














“ 基于 相似 度 阅 值 的 近邻 : 与 计算 固定 数量 的 邻居 的 原则 不 同 ， 基 于 相似 度 阔 值 的 邻居 计算 是 对 邻居 的 远近 进行 最 大 值 的 限制 ， 落 在 以 当前 点 为 中 心 ， 距 离 为 多 的 区 域 中 的 所 有 点 都 作为 当前 点 的 邻 
居 ， 这 种 方法 计算 得 到 的 邻居 个 数 是 不 确定 的 ， 但 相似 度 不 会 出 现 较 大 的 误差 。 如 图 10-9 所 示 ， 从 点 1 出 发 ， 计 算 距 离 在 多 以 内 的 领 居 ， 得 到 点 2、 点 3、 点 4 和 点 7， 这 种 方法 计算 出 的 邻居 的 相似 度 程度 会 比 
前 一 种 更 合理 ， 尤 其 是 对 于 孤立 点 的 处 理 。 这 种 方式 要 表现 的 就 是 “ 宁 缺 毋 滥 ”， 在 数据 稀 足 的 情况 下 其 效果 是 非常 明显 的 。 当 然 ， 如 何 选 择 合适 的 阔 值 也 是 实际 运用 中 需要 考虑 的 问题 。 








图 10-8 近邻 选择 方法 一 ， 最 近 的 天 个 用 户 来 确定 








图 10-9 ”近邻 选择 方法 二 ， 通 过 距离 的 阅 值 来 确定 


“这 种 最 近邻 的 选择 ， 好 像 和 KNN 分 类 及 K-Means 聚 类 所 使 用 的 近邻 选择 非常 类 似 呢 。” 


" 没 错 ， 这 些 方法 都 是 触 类 旁 通 的 。 总 体 而 言 ，Mahout 上 手 还 是 相对 比较 直观 的 ， 我 们 在 后 面 也 会 使 用 它 来 进行 实践 。” 人 小明 再 次 给 予 了 大 宝 信心 。 





10.7 ” 电 商 常见 的 推荐 系统 方案 

















10.7.1 电 商 常见 的 推荐 系统 方案 








除了 了 解 基础 知识 之 外 ， 我 们 还 需要 结合 业务 的 需求 才能 设计 出 一 个 良好 的 推荐 引擎。 这 里 依然 从 在 线 购物 的 角度 入 手 ， 依 次 分 析 可 能 的 推荐 栏 位 。 在 分 析 每 个 具体 的 栏 位 之 前 ， 我 们 先 介绍 一 下 商品 





























购买 模式 中 最 常用 的 两 个 基本 概念 : 相似 品 (Similar ltem) 和 相关 品 (Related ltems) 。 相 似 品 是 指 相互 之 间 有 很 高 的 替代 度 的 商品 ， 例 如 不 同 口味 的 薯 片 、 不 同 品牌 的 牛奶 ， 或 者 是 品牌 相同 但 是 型 号 
不 同 的 手机 。 而 相关 品 一 般 都 是 跨 品类 的 ， 虽 然 它们 属于 不 同 的 商品 类 目 ， 但 是 从 消费 的 行为 来 看 它们 之 间 存 在 很 高 的 关联 性 ， 例 如 奶瓶 和 尿布 、 电 脑 整 机 和 配件 、 衬 衣 和 领带 这 样 的 关系 。 



































前 面 介 绍 了 按照 不 同 维度 进行 划分 的 推荐 方法 。 这 里 再 按照 是 针对 用 户 还 是 商品 的 维度 来 进行 基本 的 拆 解 。 


























针对 用 户 ， 可 进一步 划分 为 群体 和 个 人 。 





“ 群体 : 根据 全 站 用 户 的 行为 来 推荐 ， 最 经 典 的 栏 位 就 是 “ 热 销 排行 榜 ” 这 种 。 由 于 没有 过 多 的 技术 难度 ， 本 文 就 不 做 深入 探讨 了 。 


“个人: 根据 某 位 用 户 个 人 的 历史 行为 来 推荐 ， 这 种 一 般 应 用 在 “个 性 化 主页 ”“ 用 户 中 心 ”等 栏 位 ， 











10-1 的 亚马逊 主页 就 是 一 个 例子 。 最 基础 推荐 的 是 提供 用 户 之 前 浏览 过 ， 但 是 没有 购买 的 商 


蕉 荐 相似 品类 。 如 果 不 是 ， 那 么 很 可 能 要 考虑 推荐 相关 品类 。 如 果 再 进一步 拓展 ， 也 不 必 仅 限 于 
用 户 浏览 或 买 过 的 商品 。 还 可 以 通过 其 他 可 以 获取 的 个 人 信息 来 进行 设计 ， 包 括 他 /她 的 职业 背景 、 兴 趣 爱 好 、 埋 好 品牌 、 消 费 能 力 等 。 


性 化 主页 ”重点 强调 的 则 是 对 于 尚未 购买 商品 的 再 次 推广 。 





品 。 对 于 已 经 购买 过 的 商品 ， 需 要 考虑 的 是 商品 的 类 型 和 周期 性 。 如 果 是 快 消 品 ， 那 么 在 周期 过 后 可 以 考虑 


“用 户 中 心 ” 强 调 得 更 多 的 可 能 是 之 前 已 购 商品 的 重复 购买 ， 而 “个 


针对 商品 ， 可 以 划分 相似 和 相关 两 个 部 分 。 


: 相似 商品 : 如 前 所 述 ， 商 品 的 相互 替代 性 很 高 ， 一 般 是 应 用 在 购买 决策 之 前 ， 便 于 用 户 进行 商品 的 比较 。 常 见 的 商品 详情 页 “看 了 此 商品 的 用 户 还 看 了 ” 


“看 了 此 商品 的 用 户 最 终 买 了 ”等 栏 位 都 届 
于 此 类 ， 如 图 10-10 所 示 。 



















相似 品 栏 位 


CG 换 一 社 









三 星 GALAXY (N9200/ 全 网 通 ) 金色 4G 手 机 
本 头 容 量 移动 电源 + 品牌 贴膜 + 自拍 村 


三 星 GALAXY Note 5 (N9200/ 全 ..。 





5 加 入 购物 车 


OF 
旦 日 莉 


全 收藏 商品 (28) 苹果 (APPLE) iPhone 6 (A158... 


¥5088 


图 10-10 ”相似 品 栏 位 示意 


“ 相关 商品 : 商品 之 间 存在 关联 性 ， 而 不 是 替代 性 。 因 此 ， 多 用 于 用 户 购买 后 进行 跨 品 类 的 关联 销售 ， 以 扩大 销售 额 。 通 常 商 品 详情 页 的 “购买 此 商品 的 用 户 还 买 了 ” 


“购买 此 商品 的 用 户 还 看 了 ”等 
栏 位 属于 此 类 ， 如 图 10-11 所 示 。 














相关 品 栏 位 


购买 此 宝贝 的 用 户 还 购买 了 : 


9 


ai 


罗马 仕 (ROMOSS) 爱 易 思 aigo 爱国 者 公司 出 。 BYZ S366 3,5 口 径 
移动 电源 /充电 宝 (Easeyes) 有 线 。 品 移动 电源 通用 型 调 音 手机 耳 
¥69 ¥19 ¥76 ¥19 





图 10-11 相关 品 栏 位 示意 














除了 根据 用 户 或 商品 来 划分 之 外 ， 还 有 一 个 综合 类 ， 这 是 比较 复杂 的 场景 ， 可 能 需要 同时 考虑 用 户 和 商品 的 信息 。 例 如 当 用 户 购 物 车 里 已 经 添加 了 若干 商品 ， 进 入 结算 页 时 ， 我 们 也 可 以 提供 建议 ， 让 
其 购买 更 多 可 能 感 兴趣 的 商品 ， 或 者 是 进行 免 邮 凑 单 。 这 时 候 ， 既 可 以 考虑 和 购物 车 中 商品 相似 、 相 关 的 品 项 ， 也 可 以 考虑 用 户 个 人 的 喜好 。 








此 外 ， 之 前 还 介绍 了 一 个 非常 重要 的 推荐 框架 : 协同 过 滤 (Collaborative Filtering) 。 协 同 过 滤 是 基于 最 直观 的 “ 口 口 相传 ”， 利 用 已 有 用 户 群 过 去 的 行为 或 意见 ， 预 测 当前 用 户 最 可 能 喜欢 哪些 东 
西 。 根 据 推荐 依据 和 传播 的 路 径 ， 又 可 以 进一步 细 分 为 基于 用 户 的 过 滤 和 基于 物品 的 过 滤 。 因 此 ， 对 于 上 述 的 不 同 场景 都 可 以 采用 协同 过 滤 的 方法 ， 进 一 步 扩大 推荐 的 范围 ， 给 用 户 带 来 更 多 的 新 鲜 感 。 
“看 了 此 商品 的 用 户 还 看 了 ” “看 了 此 商品 的 用 户 最 终 买 了 ” “购买 此 商品 的 用 户 还 买 了 ”和 “购买 此 商品 的 用 户 还 看 了 ”等 利用 用 户 访问 商品 的 行为 特征 来 衡量 商品 之 间 的 相似 程度 的 ， 都 可 以 归 为 基于 
物品 的 协同 过 滤 。 由 于 这 些 栏 位 的 名 称 已 经 阐明 了 推荐 的 逻辑 ， 所 以 它们 很 容易 被 人 们 所 理解 的 。 而 对 于 针对 用 户 的 推荐 ， 如 果 需 要 应 用 基于 用 户 的 协同 过 滤 ， 则 需要 利用 用 户 访问 商品 的 行为 特征 ， 对 人 
群 进行 聚 类 或 分 组 ， 形 成 “近邻 ”。 然 后 对 于 当前 用 户 没有 访问 过 的 物品 ， 可 利用 其 同 组 近邻 的 访问 记录 来 进行 预测 和 推荐 。 由 于 用 户 分 组 这 类 信息 一 般 不 会 在 前 端 展示 给 顾客 中， 因此 其 相对 基于 物品 过 
滤 的 算法 更 为 隐蔽 一 些 ， 也 不 容易 为 人 所 知 。 同 时 ， 一 般 情况 下 协同 过 滤 不 会 特意 区 分 相似 品 和 相关 品 ， 完 全 是 基于 用 户 的 行为 来 进行 预测 和 推荐 的 。 因 此 ， 推 荐 结果 取决 于 统计 的 行为 分 类 ， 以 及 时 间 窗 
口 ， 需 要 结合 具体 的 场景 来 具体 对 待 。 最 后 ， 比 较 下 协同 过 滤 和 数据 库 里 的 关联 规则 挖掘， 从 模型 的 角度 而 言 两 者 是 比较 接近 的 ， 不 过 也 有 不 同 点 。 严 格 说 来 ， 关 联 规则 面向 的 是 成 交 ， 非 常 明 确 。 而 协同 
过 滤 面向 的 则 是 用 户 偏好 ， 不 一 定 是 购买 ， 比 较 模糊 。 所 以 ， 协 同 过 滤 的 约束 条 件 没 有 关联 规则 那么 强 ， 但 是 同时 也 更 为 灵活 ， 可 以 融入 更 多 的 商业 规则 。 



























































综 上 所 述 ， 我 们 可 以 将 常见 的 推荐 栏 位 进行 如 表 10-1 所 示 的 划分 。 需 要 注意 的 是 ， 这 里 的 划分 只 是 一 个 基本 框架 ， 在 实际 运用 中 可 能 还 要 结合 具体 的 业务 需求 ， 进 行 定制 和 融合 。 


表 10-1 常用 推荐 栏 位 的 划分 


基于 访问 行为 特征 
用 户 中 心 、 个 性 化 主页 个 性 化 主页 、 用 户 中 心 

(侧重 于 相似 品 ， 相 关 品 需 要 人 工 运营 规则 ) ”| (侧重 于 相关 品 ) 

看 了 此 商品 的 用 户 还 看 了 

看 了 此 商品 的 用 户 最 终 买 
购买 此 商品 的 用 户 还 买 了 
购买 此 商品 的 用 户 还 看 了 

(一 般 应 用 于 用 户 访问 流量 充足 的 情况 下 ， 可 
能 同时 还 包含 相似 品 和 相关 品 ) 
> 购物 车 中 的 关联 销售 、 免 邮 凑 音 购物 车 中 的 关联 销售 、 免 邮 凑 单 

(侧重 于 相似 品 ， 相 关 品 需要 人 工 运营 规则 ) ”| (侧重 于 相关 品 ) 


针对 用 户 


和 本 商品 相似 的 其 他 商品 
针对 商品 (一 般 应 用 于 用 户 访问 流量 缺乏 的 情况 下 ， 而 
且 侧重 于 相似 品 ， 相 关 品 需要 人 工 运营 规则 ) 





在 理解 了 不 同 场景 下 ， 推 荐 的 大 致 逻 辑 和 协同 过 滤 的 方法 后 ， 我 们 就 可 以 来 设计 各 个 模块 和 整体 的 架构 了 。 这 里 主要 的 系统 模块 包括 : 相似 度 计算 、 协 同 过 滤 、 结 果 的 查询 。 前 两 者 是 离线 计算 部 分 ， 
而 最 后 一 个 模块 主要 是 服务 于 在 线 访问 。 


10.7.2 ”相似 度 的 计算 


相似 度 计 算 主 要 涉及 两 点 要 素 : 数据 特征 选取 和 模型 建立 。 


: 特征 选择 : 确定 如 何 将 现实 中 的 对 象 转换 为 计算 机 可 以 理解 的 数据 。 第 1 章 所 探讨 的 水 果 案 例 就 提 及 了 如 何 选择 特征 ， 用 于 水 果 分 类 的 问题 。 而 本 章 介 绍 的 推荐 系统 中 计算 相似 度 时 可 以 基于 内 容 、 用 
户 行为 、 专 业 知识 和 社交 网 络 等 来 实现 。 考 虑 到 大 宝 的 公司 目前 没有 专业 人 士 来 运营 ， 用 户 之 间 也 没有 形成 社交 网 络 ， 因 此 可 以 选择 基于 内 容 和 用 户 行为 的 特征 。 内 容 特 征 涵 盖 了 商品 的 标题 和 类 别 、 用 户 
的 背景 和 兴趣 等 ， 用 户 行为 涵盖 了 顾客 浏览 或 购买 了 哪些 商品 ， 基 于 内 容 和 用 户 行为 的 特征 可 以 相互 补充 。 对 于 用 户 流量 不 够 的 情形 ， 内 容 特 征 是 首选 ， 它 的 好 处 在 于 并 不 需要 用 户 的 访问 记录 ， 解 决 了 机 
器 学 习 系 统 中 常常 面临 的 “ 冷 启动 ”问题 。 本 案例 中 ， 我 们 考虑 的 是 电 商 O2O 网 站 的 商品 推荐 ， 其 基于 内 容 的 主要 特征 选择 如 表 10-2 所 示 。 除 了 商品 ， 另 外 一 个 角色 就 是 用 户 了 ， 其 主要 内 容 特 征 如 表 10-3 


所 示 。 由 于 这 里 会 涉及 人 ， 因 此 用 户 基于 内 容 的 特征 很 容易 与 访问 行为 特征 在 概念 上 产生 混 消 ， 所 以 这 里 强调 的 是 除了 商品 浏览 和 购买 的 具体 行为 之 外 的 特征 。 例 如 ， 表 10-3 中 提 到 的 消费 属性 ， 它 只 关心 
消费 的 金额 、 频 次 和 周期 等 ， 并 不 考虑 具体 的 购买 物品 及 基于 此 的 协同 过 滤 。 


“ 模型 建立 : 对 象 有 了 基于 特征 的 数据 表示 之 后 ， 就 可 以 通过 模型 来 分 析 它 们 了 。 对 于 相似 度 计 算 ， 可 以 采用 向 量 空间 模型 (Vector Space Model，VSM) 或 其 派生 模型 。 该 模型 常用 于 信息 检索 和 数据 
挖 据 中 。 如 第 4 章 所 述 ，VSM 会 将 某 个 文档 转换 为 一 个 向 量 ， 统 计 其 中 的 单词 ， 若 去 重 后 仍 有 n 个 不 同 〈Unique) 的 词 ， 那 么 该 文档 的 向 量 就 是 n 个 纬度 。 这 里 每 个 纬度 都 可 以 选择 其 对 应 单词 的 tf-idf 值 。 其 
中 ，tf 表 示 词 频 (term frequency) ， 就 是 一 个 词 在 某 篇 文档 中 出 现 的 次 数 ， 如 果 tf 值 越 高 ， 则 表示 该 词 对 于 文档 而 言 越 重要 。 而 idf 表 示 逆 文档 频率 (invetse document frequency) ， 其 假设 是 ， 在 文档 集合 中 如 
果 某 个 词 出 现在 越 多 的 文档 中 ， 那 么 其 重要 性 就 越 低 ， 反 之 则 越 高 。 这 种 表示 忽略 了 单词 在 文中 出 现 的 顺序 ， 这 可 以 大 大 简化 很 多 模型 中 的 计算 复杂 度 ， 同 时 保证 相当 的 准确 性 ， 适 合 较 短 的 文本 ， 例 如 商 
品 的 标题 。 最 后 ， 相 似 性 问题 就 可 以 转化 成 计算 两 篇 文档 向 量 之 间 的 余弦 距离 的 问题 。 该 值 正好 是 一 个 介 于 0 到 1 之 间 的 数 ， 越 接近 于 1 则 越 相 似 。 从 实现 的 角度 而 言 ， 我 们 可 以 借用 开源 的 R 语 言 、Mahout 甚 
至 是 Solr/Elasticsearch 这 样 的 搜索 引擎 来 计算 向 量 之 间 的 距离 或 相似 度 。 


表 10-2 ”商品 的 常见 内 容 特征 选择 


名 称 含 0 义 
商品 名 称 商品 品名 的 全 称 ， 例 如 “日 式 精致 美甲 美 睛 套餐 ”。 需 要 中 文 切 词 的 支持 


考虑 到 可 读 性 和 简洁 性 ， 名 称 有 时 会 无 法 描述 商品 所 有 的 内 涵 。 同 时 ， 名 称 也 没有 办 法 体现 哪 
商品 属性 些 方面 对 于 商品 而 言 是 更 为 重要 的 。 因 此 ， 需 要 经 常 考虑 到 运营 给 商品 设置 的 属性 。 由 于 属性 结 
合 了 人 类 的 知识 ,通常 还 要 给 予 其 更 高 的 权重 。 例 如 某 款 牛奶 还 有 “ 低 脂 ” “高 钙 ”“ 助 消化 ”“ 进 
口 ”“ 澳 大 利 亚 ” 等 这 样 的 属性 。 为 了 避免 歧义 ， 一 般 不 进行 中 文 切 词 处 理 
由 于 商品 的 名 称 和 属性 是 基于 词 包 ( Bag of Word) 的 方式 来 进行 处 理 的 ， 并 未 考虑 其 语义 ， 因 
此 引入 分 类 这 维特 征 是 很 好 的 补充 。 例 如 ， 词 包 的 处 理 可 能 会 认为 “巧克力 口味 牛奶 ”和 “牛奶 
商品 分 类 口味 巧克力 ”的 相似 度 很 高 ， 但 是 “巧克力 口味 牛奶 ”和 “ 低 脂 高 钙 牛 奶 ”的 相似 度 并 不 高 。 但 
是 如 果 加 入 分 类 概念 ， 系 统 就 能 理解 “巧克力 口味 牛奶 ”和 “ 低 脂 高 钙 牛 奶 ”都 是 属于 牛奶 这 个 
分 类 ， 而 “巧克力 口味 牛奶 ”和 “牛奶 口味 巧克力 ”分 属于 不 同 的 食品 分 类 ， 从 而 在 相似 度 衡 量 
上 能 够 做 出 新 的 判断 
这 里 有 个 假设 ， 就 是 同一 个 专卖 店铺 卖 出 的 商品 具有 某 种 程度 的 相似 度 或 相关 性 。 例 如 母 婴 店 ， 
不 同 品牌 的 奶瓶 就 具有 相似 度 ， 奶 瓶 和 奶粉 、 尿 布 等 就 具有 相关 性 。 一 般 不 进行 中 文 切 词 处 理 。 
当然 ， 这 点 假设 对 于 综合 卖场 并 不 适用 。 另 外 ， 从 人 和 物 的 对 应 关系 来 思考 ,我们 也 可 以 认为 


商品 的 卖家 | 这 个 特征 属于 用 户 行为 ， 不 过 相对 于 顾客 的 浏览 和 购买 行为 而 言 ， 卖 家 的 销售 行为 基本 上 是 固定 
不 变 的 ， 因 此 可 以 简化 为 内 容 特征 来 处 理 。 从 中 也 可 以 看 出 ， 行 为 特征 和 内 容 特征 其 实 也 是 可 以 
相互 转换 的 
表 10-3 用 户 常见 的 内 容 特征 选择 
名 称 含义 
ER 包括 性 别 、 年 龄 、 职 业 、 爱 好 等 ， 这 里 假设 有 类 似 社会 属性 的 用 户 更 相似 。 不 过 ， 对 于 互 
Bs 联网 而 言 ， 这 类 信息 比较 难以 获得 准确 的 资料 
用 户 消费 属性 购买 的 金额 、 频 次 和 周期 ， 这 里 假设 有 类 似 消费 习惯 的 用 户 更 相似 
a 需要 用 户 提供 具体 的 位 置 ， 可 能 是 工作 、 娱 乐 和 生活 场所 。 这 里 假设 在 邻近 商 圈 或 住宅 区 
用 户 的 地 理 属性 | 出 现 的 用 户 更 为 相似 


本 用 户 访问 网 站 时 使 用 的 设备 ， 例 如 PC、 何 种 品牌 的 手机 、 操 作 系 统 等 。 这 里 假设 使 用 类 
用 户 的 设备 属性 | 似 设备 的 用 户 更 相似 


10.7.3 ”协同 过 滤 


























户 流量 足够 高 的 时 候 ， 行 为 特征 可 以 挖掘 从 文字 本 身 无 法 发 现 的 潜在 语义 ， 为 人 们 提供 更 具有 惊喜 度 的 推荐 内 容 。 同 样 ， 对 于 用 户 行为 而 言 ， 首 先 要 考虑 哪些 行为 特征 可 以 纳入 考量 。 表 10-4 列 出 


















































了 常用 的 部 分 站。 对 于 这 些 特征 ,或 者 说 是 不 同类 型 的 行为 ， 应 该 赋予 不 同 的 权重 。 比 如 ， 浏 览 、 收 藏 、 加 入 购物 车 、 付 款 购买 和 留 下 好 评 ， 代 表 用 户 对 于 商品 的 喜好 程度 由 浅 到 深 ,自然 在 计算 时 权重 也 
从 低 到 高 。 此 外 ， 目 前 人 们 考虑 得 比较 多 的 是 正 向 特征 ， 很 少 考虑 负 向 特征 ， 但 是 对 于 越 来 越 讲 究 用 户 体验 的 互联 网 而 言 ， 负 面 的 信息 同样 重要 。 甚 至 有 些 算法 已 经 开始 设计 针对 负 向 特征 的 推荐 。 
















































































如 果 确 定 使 行为 ， 那 么 协同 过 滤 就 是 必 不 可 少 的 框架 ， 可 以 通过 Apache 的 Mahout 来 实现 它 。Mahout 对 于 基于 用 户 的 推荐 和 基于 物品 的 推荐 都 有 实现 ， 其 中 某 些 关于 相似 度 计 算 的 实现 是 基于 
向 量 距离 的 ， 因 此 很 容易 集成 VSM 和 余弦 距离 的 计算 。 随 着 客户 的 访问 量 日 益 增 大 ， 访 问 数据 的 规模 也 会 不 断 膨胀 。 好 在 Mahout 从 设计 开始 就 旨 在 建立 可 扩展 的 机 器 学 习 软 伯 包 ， 因 此 某 些 部 分 的 实现 
(例如 矩阵 运算 ) 都 是 直接 基于 Hadoop 的 MapReduce 计 算 框架 的 ， 这 就 使 得 其 具有 进行 大 数据 处 理 的 能 力 ， 这 一 点 也 是 Mahout 最 大 的 优势 所 在 。 









































































































































如 果 同时 使 用 了 基于 内 容 和 基于 用 户 行为 的 推荐 ， 或 者 是 同时 使 用 了 基于 用 户 和 物品 的 推荐 ， 则 要 考虑 推荐 的 混合 模型 。 如 果 使 用 微观 混合 ， 那 么 开发 者 需要 将 不 同 的 特征 混合 起 来 ， 这 就 会 涉及 修改 
Mahout 的 源码 了 ， 工 作 量 相对 较 大 。 宏 观 混合 则 不 用 关心 特征 的 合并 ， 它 可 将 基于 内 容 的 推荐 和 基于 行为 的 推荐 结果 有 机 地 合并 起 来 。 合 并 的 策略 也 有 多 种 选择 ， 例 如 得 分 的 加 权 合 并 、 列 表 集 合 的 加 权 
合并 等 。 当 然 ， 基 于 反馈 和 学 习 的 高 级 策略 同样 也 可 以 考虑 ， 可 以 通过 用 户 的 点 击 行为 ， 回 归 学 习 出 各 种 推荐 方法 的 权重 ， 并 用 于 合并 的 参数 调 优 。 只 是 在 基础 版 中 建议 尽量 简洁 ， 暂 不 考虑 这 个 复杂 的 功 
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表 10-4 常见 的 用 户 访问 行为 特征 


名 称 含义 
正 向 : 表达 用 户 的 喜欢 程度 
用 户 点 击 单个 商品 后 浏览 其 详情 页 。 由 于 通常 情形 下 我 们 无 法 跟踪 用 户 看 到 了 商品 列表 中 的 


浏览 哪 一 款 ， 因 此 都 是 以 他 /她 实际 点 击 和 打开 的 为 准 。 如 果 打 开 了 某 款 商 品 的 详情 页 ， 就 假设 用 
户 对 该 商品 感 兴趣 

收藏 如 果 用 户 将 某 球 商品 加 入 其 收藏 来 ， 则 假设 用 户 对 该 商品 感 兴 趣 

加 入 购物 车 如 果 用 户 将 某 款 商品 加 入 其 购物 车 或 购物 篮 ， 则 假设 用 户 对 该 商品 感 兴趣 

付款 购买 如 果 用 户 最 终 付款 购买 了 某 款 商品 ， 那 么 这 个 兴趣 是 相对 明显 和 确定 的 

好 评 在 收 到 商品 甚至 是 使 用 一 段 时 间 后 ， 用 户 留 下 了 肯定 的 评语 ， 这 也 能 体现 其 对 该 商品 的 认可 


负 向 : 表达 用 户 厌恶 的 程度 
在 收 到 商品 或 使 用 一 段 时 间 ， 甚 至 是 退换 货 之 后 ， 用 户 留 下 了 抱怨 的 评语 ， 这 说 明 商 品 服务 


差 评 的 某 些 方面 未 能 达到 用 户 的 期 望 ， 很 可 能 会 因为 这 方面 的 原因 阻止 用 户 再 次 购买 类 似 的 商品 ， 
或 者 阻止 用 户 在 同一 家 店铺 消费 
退换 货 用 户 最 终 选 择 了 退换 商品 ， 这 肯定 是 一 个 非常 负面 的 信号 ， 有 的 时 候 这 种 行为 可 能 比 留 下 差 


评 还 要 糟糕 





10.7.4 ”结果 的 查询 


有 了 数据 的 特征 定义 、 相 似 度 模型 和 Mahout 的 计算 ， 我 们 可 以 完成 数据 挖掘 的 部 分 。 但 是 ， 无 论 是 Hadoop 的 MapReduce， 还 是 Mahout 的 协同 过 滤 模 型 ， 都 是 批 处理 方 式 ， 因 此 没 法 进行 实时 性 很 
强 的 推荐 ， 故 而 还 要 设计 在 线 提供 结果 的 接口 。 常 用 的 做 法 之 一 是 将 针对 每 个 商品 或 顾客 的 推荐 结果 存 入 分 布 式 缓存 中 ， 例 如 Redis 集 群 。 采 用 Redis 的 一 个 优势 是 既 可 以 利用 其 长 期 保存 结果 ， 也 能 利用 其 
非 持久 化 功能 做 缓存 ， 提 升 访问 的 速度 。 当 然 ， 随 着 市 场 规模 日 渐 扩 大 ， 以 及 业务 逻辑 不 断 地 演变 ， 人 们 可 能 会 发 现 简单 的 键 - 值 (Key-Value) 查询 模式 无 法 满足 需求 。 例 如 ， 和 某 品 牌 商 达 成 战略 合作 关 
系 之 后 ， 系 统 需要 在 某 些 地 区 加 大 该 品牌 的 推广 力度 ， 将 其 商品 在 推荐 栏 位 里 适度 提前 。 这 里 在 查询 推荐 分 析 结 果 的 时 候 ， 至 少 要 额外 加 入 地 域 和 品牌 2 个 因素 ， 如 果 仍 然 使 用 Redis 实 现 这 项 需求 ， 那 就 只 
能 设计 非常 复杂 的 键 结构 ， 而 且 还 会 导致 数据 的 见 余 ， 不 利于 长 期 的 性 能 调 优 和 整体 维护 。 此 时 可 以 考虑 利用 Solr 和 Elasticsearch 这 类 的 搜索 引擎 ， 我 们 只 需要 将 推荐 挖掘 的 结果 、 地 域 和 品牌 等 其 他 商品 
信息 一 并 建 入 搜索 索引 ， 这 样 就 可 以 完成 多 条 件 的 复杂 查询 了 。 
















































































































































































最 后 ， 依 照 这 些 模块 搭建 的 推荐 系统 其 大 体 架 构 如 图 10-12 所 示 。 其 中 ， 如 果 需 要 特别 强调 相关 品 的 推荐 ， 则 可 以 加 入 关联 规则 挖掘 。 如 果 根 据 应 用 场景 ， 需 要 使 用 不 同 的 合并 策略 ， 则 可 以 在 Redis 集 
群 中 加 入 参数 设置 ， 存 储 不 同 的 结果 集合 ， 甚 至 是 修改 Solr、Elasticsearch 集 群 中 的 索引 数据 。 
































中 文 分 词 
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RR 或 Mahout 
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了 总 
-HH 


六 点 忆 


前 端 应 用 





四 也 有 例外 ， 例 如 按照 地 理 位 置 分 组 的 “附近 的 人 ” 


加 这 里 只 考虑 网 站 内 部 能 够 采集 到 的 数据 。 如 果 和 其 他 平台 


图 10-12 ”相似 度 模型 、 协 同 过 


[3] Mahout 最 新 的 动态 是 支持 Spatk， 原 理 和 基于 MapReduce 的 Mahout 类 似 。 


10.8 ”案例 实践 


合作 ， 可 能 会 获得 更 为 完整 的 用 户 行为 数据 。 


过 滤 模 型 和 在 线 集群 搭建 的 推荐 系统 架构 


在 本 节 的 实验 中 ， 我 们 将 实践 推荐 系统 中 最 主要 的 两 种 类 型 : 基于 内 容 特征 的 推荐 和 协同 过 滤 推荐 。 软 硬件 环境 除了 增加 Redis 的 部 署 之 外 ， 


10.8.1 基于 内 容 特征 的 推荐 


1. 离 线 挖掘 





















































其 他 的 和 之 前 的 保持 一 致 。 



















































































首先 ， 我 们 将 对 商品 进行 基于 内 容 的 推荐 。 由 于 数据 的 维度 有 限 ， 因 此 此 处 只 考虑 商品 的 标题 。 如 果 你 的 数据 集 包括 更 多 其 他 的 信息 ， 例 如 导购 属性 、 商 家 的 属性 、 地 域 属性 ， 等 等 ， 而 且 它们 对 于 业 
务 也 是 有 意义 的 ， 那 么 也 可 以 结合 这 些 信息 。 

基于 内 容 的 推荐 其 关键 是 计算 相似 度 。 如 果 仔 细 回 忆 一 下 ， 就 会 发 现在 第 2 章 的 聚 类 算法 中 ， 我 们 已 经 深入 探讨 了 如 何 为 某 个 商品 ， 查 找 与 其 标题 相似 的 其 他 商品 。 聚 类 的 问题 就 是 计算 所 要 的 时 间 较 
长 ， 好 在 这 在 离线 阶段 影响 不 大 。 所 以 ， 不 妨 直接 借用 之 前 K 均 值 聚 类 的 结果 ， 看 看 我 们 能 得 到 些 什么 。 第 2.4.1 节 讲述 了 使 用 R 语 言及 其 算法 包 所 进行 的 聚 类 ， 当 时 是 以 ID 为 37 的 聚 类 为 例 ， 这 里 我 们 再 提取 
1D 分 别 为 1、2 和 3 的 例子 : 

> listing_clusters_test_subset1 <- subset (listing clusters test, listing clusters test[, 1] 一 1) 

> listing 1 test subset1 < 一 listing[listing t clusters 1 test .subset1[, | 

> dim(listing test subset1) 

[1] 153 4 ~ 一 

> head (listing test subset1l, 20) 

ID Title Cate: 0 党 了 Categor: Mane 

341 26258 walch 威 露 士 十 八 本 草 人 和 沐浴 器 11+11 保湿 精 ; 氛 精油 超 值 组 合 装 送 芦荟 洗手 液 150ml 

740 26585 威 露 士 十 八 本 草 橄榄 健康 沐浴 露 装 800ml 送 健康 a 套装 十 八 本 草 精油 洗手 液 芦荟 150ml 17 

896 25503 walch 威 露 士 十 八 本 草 健康 露 11+11 保 浊 eh 香 和 氛 精油 超 值 组 合 装 送 芦 蔡 洗手 液 150ml 

1082 26378 walch 威 露 士 十 八 本 草 健康 露 合 装 送 芦 共 洗手 液 150ml 

1481 24981 walch 威 露 士 十 八 本 草 健 沐浴 器 Ro 和 油 沐浴 露 检 花蜜 11 

1845 25383 walch 威 露 士 十 八 本 草 健康 沐浴 露 11+11 他 精 油 香 氛 精油 超 值 组 合 装 送 芦荟 洗手 液 150ml 

2180 25771 dettol 滴 露 滋润 倍 护 健康 沐浴 露 950g+360g | A 

2785 26662 dettol 滴 露 健康 沐浴 露 植物 呵护 300 毫 升 沐浴 露 

2954 26661 dettol 滴 露 健康 》 冰 爽 薄荷 650g 送 沐浴 露 0 

3268 26614 walch 威 露 士 海藻 800ml 送 十 八 本 草 旅行 套装 

3420 26409 dettol 滴 露 薄荷 950g+360g 超 值 组 合 装 

3422 26249 dettol 滴 露 薄荷 950g+360g 超 值 组 合 装 

3621 26289 dettol 滴 露 薄荷 950g+360g 超 值 组 合 装 

3773 25782 护 健康 沐浴 露 360g 

4170 25303 walch 威 露 士 十 八 本 草 健康 沐浴 露 11+11 保湿 精油 香 氨 着 送 疡 芝 3 150ml 

4303 25423 walch 威 露 士 十 八 本 草 健康 沐浴 露 11+11 保湿 精油 香 氛 精 ; 送 芦荟 洗手 液 150ml 

4553 26527 dettol 滴 露 滋润 倍 护 健 月 950g+360g 超 值 组 合 装 

4824 25294 dettol 滴 露 薄荷 冰 夹 健 月 950g+360g 超 值 组 合 装 

4931 26207 dettol 滴 露 滋润 倍 护 健 层 950g+360g 超 值 组 合 装 

5323 26498 dettol 滴 倍 护 健康 沐浴 露 360g 








> listing clusters test_ subset2 <- subset (listing clusters test, listing clusters test[, 1] 一 2) 


> listing test subset2 <- listing[listing . 


> dim(listing test subset2) 
[1] 45 4 
> head (listing test subset2, 20) 


clusters test subset2[, 2], ] 


ID 


Title CategoryID CategoryName 









































228 3650 jfx 聚 福 鲜 jufuxian 聚 福 冷冻 海鲜 烧烤 新 鲜 鲍鱼 须 串 850g 包 20 串 烧烤 多 

441 3620 jfx 聚 福 鲜 jufuxian 聚 福 鲜 冷冻 海鲜 是 殉 贝 片 100g 袋 营养 火锅 豆 捞 海底 由 

1427 3213 jfx 聚 福 鲜 jufuxian ; 深海 银 鳞 

1643 3639 jfx 聚 福 鲜 jufuxian 聚 福 鲜 并 和 海鲜 喜 福 多 食品 饥 鱼 拼盘 150g 盘 豆 措 

2641 3381 jfx 聚 福 鲜 jufuxian 冷冻 生 鲜 类 党 人 水 产品 银 鳞 鱼 500g 袋 深海 银 鳞 

2803 3604 jfx 聚 福 鲜 jufuxian ; F 货 海味 于 货 带 过 虾 于 250g 包 18-25 个 干 盐 
4925 3518 jfx 聚 福 鲜 jufuxian 聚 福 鲜 冷冻 多 是 片 1209 袋 营养 火锅 豆 捞 海底 捞 质 脆 
4964 4433 jfx 聚 福 鲜 jufuxian 海鲜 制品 调味 北极 贝 500g 盒 解冻 即食 调味 北极 贝 沙拉 日 韩 料理 寿司 材料 
5517 4437 jfx 聚 福 鲜 jufuxian 冷冻 海鲜 长 江 河鲜 高 档 淡水 鱼 类 纯 野生 长 江 刀 鱼 8 条 装 1000 克 托盘 
6198 3436 jfx 聚 福 鲜 jufuxian 冷冻 海鲜 生 鲜 贝 类 大 连 扇贝 王 700-800g 袋 装 鲜 活 % 扇贝 大 元 
7366 3049 jfx 聚 福 鲜 jufuxian 冰岛 新 鲜 冷冻 海鲜 牡 是 800 克 包 速冻 生 蜂 冰岛 速冻 半 壳 生 下 
8099 4462 jfx 育 福 鲜 jufuxian 海鲜 干货 特级 淡 干 无 盐 虾皮 250g 袋 和 虾皮 纯 水 
10550 3135 jfx 聚 福 鲜 jufuxian 大 连 熟 冻 章 鱼 须 大 八 爪 鱼 须 章鱼 足 刺 身 

10591 4434 jfx 聚 福 鲜 jufuxian 海鲜 制品 西洋 辣 章鱼 500g 谷 日 料理 寿 吉 

12074 3104 jfx 聚 福 鲜 jufuxian 顶级 智利 进口 熟 冻 帝王 锯 鲜 甜 弹 牙 可 牙 让 4kg 人 货 精 
12685 3114 jfx 聚 福 鲜 jufuxian 冷冻 海鲜 全 籽 马 带 盒 1lkg 盒 小 海 免 满 籽 籽 马 小 铠 色 笔 入 饭 鱼 乌贼 
12918 3260 jfx 聚 福 鲜 jufuxian 大 连 冷冻 海 鲜 鱼 大 人 爪 鱼 熟 章鱼 新 鲜 即食 章鱼 2kg 只 寿司 刺 身 即食 口感 香 脆 
14073 4463 jftx 育 福 鲜 jion 海鲜 干货 特级 淡 干 无 盐 虾皮 100g 袋 白 虾皮 纯 野生 小 虾米 熟 虾皮 生 鲜 水 产品 
14382 3441 jfx 聚 福 鲜 jufuxian 冷冻 海鲜 喜 福 多 食品 太平 洋 真 鳞 鱼 500g 盒 深海 野生 鱼 鳞 鱼 块 
14601 3326 jfx 聚 福 鲜 jean 海鲜 干货 顶级 深海 响 螺 片 300g 包 海鲜 干货 海螺 肉 海螺 肉 海鲜 干货 煲 汤 佳品 








> listing clusters test subset3 <- subset (listing clusters test, listing clusters test[, 1] 一 3) 
> listing test subset3 <- listing[listing clusters test subset3[, 2], ] 
多 dim(1isting 1 test subset3) 


慨 ] 二 


31 


4 


> head (listing test subset3, 20) 


201 

659 

872 

873 

1138 
1714 
1740 
1757 
1775 
2170 
2193 
2294 
2298 
迷人 
2510 
2581 
3384 
3741 


合 
合 百 诺 
parmalat 帕 玛 拉 特 圣 涛 天 然 鲜 榨 查 汁 11 天 然 鲜 榨 桃 汁 11 意大利 进口 零 


人 


tle CategoryID CategoryName 


神州 北极 野生 蓝莓 果汁 三 箱 装 300ml 从， 箱 富 含 花 青 素 纯 天 然 纯 野生 蓝莓 果 


原 汁 源 100 纯 蓝莓 惠 


Cheng 


站 着 于 果 半 所 
卡 


佳 视 宝 go east 蓝莓 枸杞 100 果汁 946ml 瓶 
盒 装 500ml 瓶 高 档 送礼 进口 果汁 饮料 

依 之 蓝莓 汁 100 有 机 蓝莓 原料 11 瓶 
bao 橙 宝 100 纯 果汁 西 柚 汁 1000ml 12 盒 装 


弘 字 原始 口粮 四 生 蓝莓 汁 蓝莓 果汁 300ml 蓝莓 饮料 原 浆 果汁 


诺 丽 原装 进 


进口 诺 丽 果汁 500ml 1 瓶 100 野生 诺 


车 丽 果汁 发 酵 而 成 世博 会 指定 产品 





百 加 得 新 浓缩 果汁 橙 陈 果汁 水 果 冲 调 饮料 840ml 1 < 9 冲 调 





扬 雅 鲜 榨 果园 扬 雅 nfc 果汁 草莓 


原 汁 源 纯 蓝莓 汁 周年 庆 送礼 


食品 
仿 饮 


纯 鲜 榨 非 还 原 10 瓶装 星巴克 希 尔 天 冷饮 
红 礼盒 装 500ml 瓶 年 货 高 档 送礼 果汁 饮料 


parmalat 帕 玛 拉 人 涛 100 鲜 榨 纯 菠萝 汁 11 天 然 鲜 榨 可 汁 11 意大利 进口 零 人 


依 之 蓝莓 汁 饮料 405I 


mlx15 新 包装 加 量 不 加 价 健康 美味 蓝莓 
天 100 纯 果汁 橙汁 1000ml 12 全 





cheng bao 橙 





汇源 100 纯 果汁 桃子 200mlx24 盒 了 
蓝 百 蓓 野生 有 机 蓝莓 果汁 富 含 花 青 素 美 








80 蓝莓 果汁 300ml 6 瓶 礼盒 装 


果汁 中 国人 好 果汁 欢迎 团 购 




















尚 禾 从 


El 


迁 西 特产 安 梨 汁 酸 梨 汁 245ml 纯 天 然 


饮品 


果汁 


爱 瑞 乐 百 香 果 混合 Gr 
















3781 
3971 


| 百村 果汁 婚庆 果汁 passion juice 780ml 1 
armalat 帕 玛 拉 特 100 鲜 榨 果汁 橙汁 梨 汁 菠萝 汁 11x3 瓶 
哈 唯 谷 400 浅 缩 果汁 蓝莓 果汁 黑 加 仑 果汁 248ml 瓶 可 冲 兑 成 11 纯 果汁 2 瓶 组 合 装 


装 意大利 进口 








ee 





从 这 3 个 例子 中 可 以 看 出 ， 每 个 聚 类 集合 内 的 商品 ， 它 们 的 标题 文本 都 是 高 度 相似 的 。 而 不 同 聚 类 之 间 的 商品 ， 它 们 标题 文本 的 相似 度 就 很 低 ， 








结果 导出 ， 供 后 续 的 在 线 推荐 使 








符合 基于 内 容 相似 度 的 推荐 之 期 望 。 我 们 可 以 将 R 的 聚 类 





> Write.table (listing clusters test, file 


= "/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing.clusters.txt", sep = "\t" 





完整 的 结果 文件 位 于 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Recommendation/listing.clusters.txt 


2. 在 线 推荐 








R 和 Mahout 可 以 帮助 我 们 实现 多 种 模型 ， 但 是 无 法 解决 时 效 性 问题 。 挖 掘 的 算法 都 需要 大 量 的 计算 ， 通 常 需要 花 上 数 分 钟 ， 甚 至 更 久 。 前 端 用 户 访问 的 时 候 ， 绝 对 不 可 能 等 待 这 么 长 的 时 间 。 因 此 ， 我 
们 还 需要 某 种 方式 来 高 效 地 获取 挖掘 的 结果 ， 用 于 构建 在 线 的 推荐 模块 。 如 果 聚 类 结果 的 数据 量 不 大 ， 则 完全 可 以 放 在 内 存 中 。 相 反 ， 如 果 数 据 量 过 大 ， 就 需要 使 用 其 他 的 辅助 系统 ， 例 如 Redis 缓 存 集群 或 
是 Solr/Elasticsearch 的 搜索 集群 ， 大 幅 提升 访问 的 速度 。 































































































缓存 可 以 认为 是 计算 机 系统 的 伟大 发 明之 一 ， 它 的 应 用 在 该 领域 中 是 普遍 存在 的 。 小 到 电脑 的 中 央 处 理 器 (CPU) 、 主 板 、 显 卡 等 硬件 ， 大 到 大 规模 的 互联 网 站 点 ， 都 在 广泛 使 用 缓存 并 从 中 受益 。 缓 
存 是 数据 交换 的 缓冲 区 ， 它 的 读 取 速度 远 远 高 于 普通 存储 介质 ， 作 用 是 帮助 系统 更 快 地 运行 。 当 某 个 应 用 需要 读 取 数据 时 ， 会 优先 从 缓存 中 查找 所 需要 的 内 容 ， 如 果 找到 了 则 直接 获取 ， 这 个 效率 比 读 取 普 
通 存储 的 效率 要 高 。 如 果 缓存 中 没有 发 现 所 需要 的 内 容 ， 则 再 到 普通 存储 中 寻找 。 
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这 里 我 们 将 使 用 Redis (http://redis.io/) ， 它 的 全 称 是 远程 字典 服务 器 (REmote Dlctionary Server) ， 它 是 一 个 开源 的 、 高 性 能 、 基 于 键 - 值 型 的 缓存 和 存储 系统 ， 并 提供 了 多 种 编程 语言 的 API 接 
口 ， 近 几 年 逐步 开始 流行 于 业界 。2008 年 ， 意 大 利 的 一 家 创业 公司 为 了 满足 业务 的 需求 ， 开 始 量 身 定制 一 套数 据 库 系 统 。 在 其 基础 上 ，2009 年 首 个 Redis 版 本 发 布 。2010 年 年 初 ，Redis 的 开发 工作 开始 由 
VMware 赞助 。Redis 的 特性 主要 包括 : 提供 了 极 高 的 性 能 、 支 持 多 种 数据 类 型 、 支 持 事务 性 、 可 设 定 生命 周期 、 提 供 持久 化 存储 等 。 
























































接 下 来 看 看 如 何 将 推荐 结果 存放 在 Redis 中 。Redis 的 Value 值 支持 多 种 数据 类 型 的 存放 ， 考 虑 到 推荐 的 内 容 大 多 数 是 一 个 列表 ， 而 且 相 似 性 /相关 性 (或 者 说 是 质量 ) 由 高 到 低 有 所 不 同 ， 因 此 选择 有 序 
的 列表 (List) 类 型 ， 可 以 保证 更 高 质量 的 推荐 排 在 前 面 。 图 10-13 展 示 了 针对 用 户 的 推荐 存储 ，Key 键 是 用 户 ID， 而 Value 值 是 给 这 个 用 户 推荐 的 商品 ID 列表 ， 适 用 于 “个 性 化 主页 ”或 “用 户 中 心 ”这 样 
的 栏 位 。 图 10-14 展 示 了 针对 商品 的 推荐 存储 ，Key 键 是 商品 ID， 而 Value 值 是 和 这 款 商品 相似 、 相 关 的 商品 ID 列表 ， 适 用 于 “相似 商品 ” “相关 商品 ”“ 看 了 此 商品 的 用 户 还 看 了 ” “看 了 此 商品 的 用 户 最 
终 买 了 ”等 栏 位 。 更 多 有 关 缓 存 和 Redis 的 基础 介绍 ， 请 见 《 大 数据 架构 商业 之 路 》 一 书 。 












































































































































截至 本 章 写 作 之 时 ，Redis 最 新 的 稳定 版 已 经 更 新 到 3.2.8， 支 持 分 布 式 集群 ， 你 可 以 在 这 里 下 载 : 
https://redis.io/download 


解压 后 ， 设 置 环境 变量 : 








export REDIS HOME=/Users/huangsean/Coding/redis-3.2.8 


键 值 














图 10-13 Redis 存 放 基 于 用 户 的 推荐 ， 键 是 用 户 ID， 值 是 推荐 商品 ID 列表 
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图 10-14 Redis 存 放 基 于 商品 的 推荐 , 键 是 商品 [D， 值 是 推荐 商品 ID 列 表 











进入 $REDIS_ HOME 目录 ， 然 后 编译 : 














[huangsean@iMac2015:/Users/huangsean/Coding/solr-6.3.0-singlel]lcd $REDIS HOME 

[huangsean@iMac2015: /Users/huangsean/Coding/redis-3.2.8]make 加 

cd src && /Library/Developer/CommandLineTools/usr/bin/make all 

rm -rf redis-server redis-sentinel redis-cli redis-benchmark redis-check-rdb redis-check-aof *.o *.gcda *.gcno *.gcov redis.info lcov-html 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 





编译 成 功 后 ， 在 $REDIS_HOME/src 目 录 中 就 会 增加 可 执行 的 命令 。 设 置 环境 变量 : 





export PATH=$PATH:$REDIS HOME/src 











使 用 如 下 命令 启动 Redis 的 服务 器 : 








[huangsean@iMac2015:/Users/huangsean/Coding/redis-3.2.8]redis-server 

2219:C 18 Feb 14:10:36.644 # Warning: no config file specified, using the default config. In order to specify a config file use redis-server /path/to/redis.conf 
2219:M 18 Feb 14:10:36.645 * Increased maximum number of open files to 10032 (it was originally set to 256). 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 





然后 进入 Redis 的 客户 端 ， 进 行 交互 : 





[huangsean@iMac2015:/Users/huangsean/Coding/redis-3.2.8]redis-cli 
127.0.0.1:6379> 














下 面 的 Redis 命 令 展 示 了 存放 的 几 个 基础 示例 ， 采 用 的 是 在 列表 右 侧 加 入 。 首 先是 对 UserA 和 UserB 进 行 存储 : 

















127.0.0.1:6379> RPUSH UserA Product73 Product82 

(integer) 2 

127.0.0.1:6379> RPUSH UserB Product92 Product3 Product15 
(integer) 3 





然后 是 对 Product1 进 行 存储 : 





127.0.0.1:6379> RPUSH Product1l Product37 Product53 Product17 Product95 
(integer) 4 





下 面 分 别 是 获取 对 于 UserA 和 UserB 的 前 2 个 推荐 : 





127.0.0.1:6379> LRANGE UserA 0 1 
1 produst73 

2) "Product82" 

127.0.0.1:6379> LRANGE UserB 0 1 
1) "Product92" 

2) "Produst 3" 





I 


以 及 对 于 Product1 的 前 3 个 推荐 ， 获 取 非 常 简 和 








127.0.0.1:6379> LRANGE Productl 0 2 
1) "Product37" 


2) "Product53" 
3) "Product17" 











证 明 Redis 服 务 器 工作 正常 之 后 ， 我 们 可 以 通过 其 Java 的 客户 端 ， 存 储 并 访 








问 离线 的 K 聚 类 结果 ， 打 造 实 时 的 推荐 。 建 立 Maven 项 














Recommendation， 在 pom.xml 中 加 入 Redis 的 依赖 Jar 包 : 





<!-- Redis 的 依赖 Jar 包 --> 
<!-- https://mvnrepository.com/artifact/redis.clients/jedis --> 
<dependency> 
<groupId>redis.clients</groupId> 
<artifactId>jedis</artifactId> 
<version>2.8.2</version> 
</dependency> 





让 我 们 假设 每 个 聚 类 之 内 的 商品 都 是 足够 相似 的 ， 它 们 互 为 彼此 的 相似 品 。 鉴 于 此 ， 可 在 Redis 中 设计 两 个 键 值 映射 关系 : 第 一 个 映射 是 从 商品 








的 商品 列表 。Recommendation 项 目 中 的 RedisBased 类 完成 了 这 个 任务 ， 主 : 


Redis 服 务 器 的 连接 和 资源 释放 代码 如 下 : 


// 非 切 片 连接 池 
// 连接 客户 端 


Private JedisPool J = null; 
private Jedis jedis = nul 


// 商品 ID 到 商品 标题 和 分 类 信 昌 的 映射 





alID 到 聚 类 ID; 第 二 个 映射 是 从 聚 类 ID 到 所 有 属于 该 聚 类 


的 函数 包括 商品 和 聚 类 数据 的 加 载 、 写 入 Redis 服 务 器 保存 相似 品 信息 ， 以 及 读 取 Redis 服 务 器 进行 推荐 。 


Private Map<Long, String> listingId2tilteAndCate = new HashMap<>(); 


// 样本 ID 到 商品 ID 的 映射 
private Map<Long，Long> sampleIdq21istingTId = 
Private Random rand = new Random(); 


new HashMap<>(); 


private RedisBased () 


{ 
// 连接 池 的 基本 配置 
JedisPoolConfig config = 
config.setMaxTotal (20)，; 
config.setMaxIdle (5); 
config.setMaxWaitMillis (10001); 
config.setTestOnBorrow (false); 


// 根据 你 的 需要 设置 IP/ 主 机 和 端口 
jedisPool = new JedisPool (config,"127.0.0.1",6379); 
// 获取 连接 资源 


jedis = jedisPoo]l .getResource (); 


new JedisPoolConfig(); 





public void cleanup() { 
if (jedis != null) { 
jedis.close (); 


} 


商品 数据 的 加 载 ， 和 Redis 中 两 种 映射 的 建立 : 


public void load(String listingFile, String ClusterFile) { 
try { 


// 加 载 商 品 数据 
BufferedReader br = 
String strLine = br.readLine(); 
long sampleId = 1L; 

while ((strLine = br.readLine ()) 


// 跳 过 header 这 行 
!= null) { 


String[] tokens = strLine.split (™\t"); 

if (tokens.length < 4) continue; 

Long listingId = Long.parseLong (tokens[0]); 
String title = tokens[1]; 

String cate = tokens[3]; 

// 加 载 商品 ID 到 商品 标题 和 分 类 的 信息 


listingId2tilteAndCate.put (listingId，String.format ("标题 : 


title, cate)); 


// 从 样本 ID 到 商品 ID 的 映射 
sampleId21listingId.put (samplelId, listingId); 
sampleId ++; 


} 


br.close(); 


// 加 载 聚 类 数据 

jedis.flushDB (); // 清空 原 有 数据 ， 慎 用 

br = new BufferedReader (new FileReader (ClusterFile) ) 
strLine = br.readLine (); // 跳 过 header 这 行 
sampleId = 1; 

while ((strLine = br.readLine()) != null) { 
String[] tokens = strLine.split("\t"); 
String clusterId = 
Long listingId = 
// 第 一 个 映射 : 
// 可 能 属于 多 个 聚 类 

jedis.rpush (listingId.toString() ，clusterId) 


// 第 二 个 映射 : 从 聚 类 ID 到 所 有 属于 该 聚 类 的 商品 列表 
jedis.rpush (clusterId, listingId.toString()); 


sampleId2listingId.get (sampleId); 





samplelId ++; 


} 


br.close(); 
} catch (Exception e) { 


// TODO: handle exception 
e.printstackTrace (); 


读 取 Redis 信 息 并 进行 推荐 : 


从 商品 ID 到 聚 类 ID， 二 生生 和 机 是 币 于 扩展 性 的 考虑 ， 


new BufferedReader (new FileReader (ListingFile) ) 7 


和 6NtNE 分 类 :名 sg”; 


String.format ("cluster %s", tokens[1]) 


一 件 商品 





public List<String> recommend (Long listingId) { 


// 获取 该 商品 所 属 的 聚 类 
String clusterId = jedis.lrange (listingId.tostring(), 


// 从 聚 类 的 商品 列表 中 ， 随 机 挑选 10 件 商品 

long len = jedis.1len(clusterId) ， 

long start = rand.nextInt ((int) (len - 10)); 
return jedis.lrange (ClusterId， start, start + 10); 


0, 1).get(0); 





最 后 运行 main 中 的 测试 代码 ， 这 里 随机 挑选 3 个 商品 的 ID， 并 输出 推荐 结果 





public static void main (String[] args) { 
// TODO Auto-generated method stub 


RedisBased rb = new RedisBased () 


// 加 载 聚 类 数据 到 Redis 
rb.1load("/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing- 
segmented-shuffled.txt", 
"/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing.clusters. 
txt"); 


// 随机 挑选 3 个 商品 ， 获 取 推 荐 
Random rand = new Random(); 
int n= 3; 
for (inmt 1 = 07 1 < nr tH) 
Long listingId = (long) rand.nextInt (28706); 
System.out .printin (String.format ("输入 的 商品 : $s\t%s",，1listingId, 
rb.getListingInfo (listingId))); 
List<String> similarListinglIds = rb.recommend (listingId); 
for (String similarListingId : similarListingIds) { 
System.out .println (String.format ("\t%s\t%s", 
similarListingId, rb.getListingInfo (Long.parseLong (simi 
larListingId)))); 
} 


System.out .printlin(); 
} 


rb.cleanup (); 






















以 下 是 推荐 的 结果 

输入 的 商品 : 8848  “‘ 书 长 白 工 坊 含量 80 野生 蓝 攻 果汁 300ml 瓶 蓝 茬 汁 8 瓶 礼盒 装 只 限 江浙 沪 日 期 14 年 4 月 分 类 : 饮料 饮品 
9022 标题 : 若 丽 斐济 原装 进口 诺 丽 果汁 诺 丽 果 500ml 12 瓶 进口 朵 汁 礼 全 分 类 : 饮料 饮 
9021 标题 蓝 百 蓓 大 兴安 岭 野生 蓝莓 果汁 含 50 蓝莓 果汁 450ml 12 盒 利 乐 包装 方便 安全 
8815 标题 ， 蒙特 鲜 芒果 苹果 澳洲 进口 nfc100 纯 鲜 榨 果汁 不 加 水 不 加 糖 不 加 防腐 400ml 
8608 标题 : 神州 北极 野生 蓝莓 果汁 300ml 10 瓶 箱 富 含 花 青 素 纯 天 然 纯 野生 蓝莓 果 分 类 : 
8810 标题 : 蒙 芒果 苹果 澳洲 进口 nfc100 纯 鲜 榨 果汁 不 加 水 不 加 糖 不 加 防腐 300ml 
8596 标题 : Parmalat 帕 玛 拉 特 维生素 ace 鲜 榨 纯 果汁 11 i 大 利 进口 零 食品 分 类 : 饮料 饮品 
8335 标题 ， 零 坊 鲜 榨 果汁 奇异 果汁 300ml 分 类 : 饮料 饮品 
8930 标题 : 维 嘉 思 vigarce 汇源 素养 生活 怡 乐 包 100 果汁 11 盒 5 盒 组 合 装 桃 汁 橙汁 苹果 汁 三 种 口味 随机 分 类 : 饮料 饮品 
8809 标题 : 蒙特 鲜 蓝 荐 葡萄 苹果 澳洲 进口 nfc100 纯 鲜 榨 果汁 不 加 水 不 加 粮 不 加 防腐 400ml 分 类 : 饮料 饮品 
8983 标题 圣 牧 香港 sungshine 草莓 汁 10 瓶装 711 热卖 冷饮 则 全 呈 100 纯 果汁 含 果肉 分 类 : 饮料 饮品 
8661 标题 长 白 工 坊 含量 90 野生 蓝莓 果汁 蓝莓 汁 300ml 8 瓶 礼盒 装 只 限 江浙 沪 其 14 年 4 月 分 类 : 饮料 饮品 

输入 的 商品 : 6624 标题 : 拉 美 拉 多 种 口味 松 串 巧克力 400g 盒 进口 料 零 食品 手工 普通 黑 巧克力 礼盒 生日 礼物 分 类 : 巧克力 
5803 标题 : 德 关 ,dove 德 美 心 语 什锦 巧克力 牛奶 夹心 摩 | 下 栋 仁 989 18 频 婚庆 喜 糖果 休闲 零 食品 分 类 : 巧克力 
6626 标题 : 拉 芙 拉 洛 必 相 印 1604 巧克力 礼盒 180g 僵 手工 diy 夹 心 黑 巧克力 纯 苦 创意 生 乓 入 分 类 : 巧克力 
6182 标 属 ， 洛 伊 diy 创意 定制 卡通 手工 巧克力 下 生日 节日 个 性 六 一 节 儿童 巧克力 礼物 380 克 分 类 : 巧克力 


5553 类 硫 和 5 讽 力 6 口味 随机 发 == 克 装 分 类 : 巧克力 
和 克 2 盒 休闲 零食 喜 糖果 礼物 分 类 : 巧克力 
燕麦 巧克力 低糖 装 500g 分 类 :巧克力 
馈 装 牛奶 巧克力 28 克 分 类 : 巧克力 
德 美 荆 a 分 类 : 巧克力 
上 脆 香 米 脆 六 尺 心 牛奶 巧克力 500g eS 分 类 : 巧克力 
养 麦片 燕麦 巧克力 单个 约 11g 散 点 零食 特产 糖果 


礼盒 婚庆 节日 生日 果 仁 巧克力 礼盒 3 粒 装 
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输入 的 商品 : 17052 题 : 金龙 鱼 生态 稻 5kg 袋 分 类 : 大 米 

16749 : 金龙 鱼 原 香 稳 5kg 伐 x2 分 类 : 大 米 

16892 金龙 鱼 原 香 稻 5kg 袋 类 : 大 米 

17658 : 金龙 鱼 软 香 稻 5kg 袋 分 类 : 大 米 

17660 : 金龙 鱼 原 香 稻 5kg 袋 分 类 : 大 米 

17325 金龙 鱼 原 香 稻 Skg 入 x 2 分 类 : 大 米 

18668 金龙 鱼 原 香 稻 5kg 袋 分 类 : 大 米 

16647 十 月 稻田 五 常 稻 划 关 大 米 5kg 袋 x 2 分 类 : 大 米 
18859 金龙 鱼 软 香 稻 5kg 袋 x 2 分 类 : 大 米 

18279 | 稻田 二 , 稻 人 大 米 5kg 袋 x 2 分 类 : 大 米 
17754 : 金龙 鱼 软 香 稻 5k 分 类 : 大 米 

18557 个 全 玉生 医大 让 证 各 ko x 2 分 类 大 米 








完整 的 代码 ， 可 以 参考 下 列 项 目 中 的 Recommendation.RecommendationImplementation 包 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Recommendation/RecommendationImplementation 





不 过 ， 这 种 离线 聚 类 配合 在 线 缓存 的 推荐 模式 存在 一 些 局 限 性 ， 具 体 如 下 。 


“ 相似 度 计 算 的 精准 性 不 够 : 区 均值 聚 类 其 实 是 一 种 简化 的 实现 ， 只 考虑 商品 和 聚 类 质心 点 的 距离 ， 因 此 会 产生 一 定 的 误差 。 此 外 ， 从 聂 类 最 后 的 结果 ， 我 们 只 能 知道 某 些 商品 是 相似 的 ， 但 是 它们 之 

间 的 相似 度 得 分 却 无 法 得 知 。 换 言 之 ， 给 定 一 个 商品 ， 是 无 法 根据 相似 度 ， 对 其 他 相似 商品 进行 排序 的 ， 只 能 从 聚 类 的 集合 中 随机 挑选 。 如 果 期 望 相似 度 的 衡量 完全 精准 ， 并 且 可 以 根据 相似 度 进行 排序 ， 

么 就 意味 着 要 放弃 均值 算法 的 简化 ， 将 每 个 商品 和 其 他 所 有 的 商品 进行 比较 ， 并 计算 两 者 之 间 的 相似 度 。 可 是 ， 这 个 时 间 复 杂 度 将 达到 O 〇 (nm?) ， 其 中 n 为 商品 的 数量 ， 这 对 于 大 规模 的 数据 而 言 是 灾难 
性 的 。 


“ 对 复杂 查询 条 件 的 支持 不 够 : 举 个 例子 ， 社 区 OQ2O 的 商品 有 很 强 的 地 域 性 ， 换 了 不 同 的 商 圈 可 能 推荐 的 结果 就 完全 不 同 了 ， 这 时 还 需要 在 Redis 的 Key 键 中 加 入 地 域 的 参数 。 图 10-15 展 示 了 对 于 基于 用 
户 的 推荐 如 何 加 入 地 域 因 素 ， 由 于 每 个 用 户 都 会 考虑 家 庭 社区 (Home) 、 公 司 商 圈 (Office) 和 旅游 地 商 圈 (Travel) 等 因素 ， 因 此 Key 键 中 加 入 了 这 些 信息 。 假 设 Product73 在 公司 商 圈 并 不 销售 ， 那 么 它 也 
不 会 出 现在 UserA_Office 所 对 应 的 Value 值 之 中 。 但 是 我 们 会 发 现 新 的 问题 有些 快 消 或 流行 商品 可 能 会 在 多 个 地 点 出 现 ， 而 这 将 会 导致 数据 的 宛 余 。 例 如 ，Product73 在 UserA 的 家 庭 社区 和 旅游 地 商 圈 都 有 出 
现 ，Product92 和 Product8 在 UserB 的 家 庭 社区 和 公司 商 圈 也 都 有 出 现 。 而 且 ， 对 于 购物 车 里 的 栏 位 ， 可 能 推荐 输入 的 不 是 单 件 商品 ， 而 是 多 件 ， 那 么 开发 者 还 要 自己 负责 结果 的 合并 。 随 着 查询 条 件 的 日 益 复 
杂 ， 甚 至 有 可 能 需要 多 条 件 复合 ， 那 么 Redis 的 键 值 设 计 将 会 变 得 越 来 越 复杂 ， 而 且 见 余 问题 也 会 越 来 越 严 重 ， 最 终 肯定 会 影响 设计 开发 的 项 目 进 度 ， 以 及 在 线 服务 的 整体 性 能 。 


“ 数据 更 新 较 慢 : 只 有 等 离线 的 挖掘 算法 处 理 完毕 之 后 ， 我 们 才能 将 新 的 数据 加 载 到 缓存 中 使 其 生效 。 


键 值 


UserA Home Product73 Product82 


UserA Office Product82 
Product73 





UserA Travel 


UserB_Home Product92 


US 大 elilw “>| Product92 一 ->| Products | Product15 


UserC Office Product12 Product66 
UserC_Travel Product54 Product37 
UserD_ Home Product98 Product534 








图 10-15 Redis 存 放 基于 用 户 的 推荐 时 ， 考 虑 到 地 域 的 因素 











3. 利 用 搜索 引擎 实现 在 线 推荐 

















Product37 


总 之 ， 你 会 发 现 离线 聚 类 配合 在 线 缓存 的 方式 不 够 灵活 ， 很 难 支持 复杂 的 查询 ， 更 新 也 比较 慢 。 其 实 ， 我 们 完全 可 以 使 用 搜索 引擎 这 一 利器 ， 来 支持 相似 商品 的 查找 。 此 时 ， 读 者 朋友 们 可 能 会 觉得 纳 








闽 : 搜索 引擎 和 对 象 之 间 的 相似 度 衡量 有 什么 关系 呢 ? 正如 第 4 章 的 理论 知识 介绍 所 说 的 ， 如 今 搜 索引 警 的 相关 度 模型 很 多 都 源 自 VSM (向 量 空间 模 


蜡 ) ， 或 者 其 衍生 模型 。 而 VSM 也 是 很 多 相似 度 计算 的 








基础 。 实 际 上 ， 信 息 检索 中 的 相关 度 和 聚 类 /分 类 中 的 相似 度 ， 这 两 者 可 谓 一 脉 相 承 。 如 果 将 某 个 商品 标题 作为 搜索 的 查询 ， 那 么 搜索 结果 中 排名 靠 前 的 一 定 是 和 给 定 标题 有 很 高 文本 相似 度 的 商品 。 这 里 以 


Elasticsearch 为 例 ， 让 我 们 向 http://IMac015: 9200/listing_new/listing/_search 端 点 发 送 POST 请 求 : 





{ 
"query": { 
"match" : { 
"isting title" » 1 
"query” : "花香 四 季 长 白山 野生 蒲公英 茶 茶叶 婆婆 丁 50 克 "， 




















"minimum should match" : "30%"™ 
下 
}, 
"aggs" : { 
"categories" : { 
"terms" : { "field" : "category name" } 
} 
} 
} 
其 中 ， 查 询 的 内 容 是 某 件 商 品 的 标题 ， 并 且 使 用 Elasticsearch match 查 询 默 认 的 布尔 操作 符 OR。 使 用 OR 的 原因 主要 有 如 下 两 点 。 




















“ 如 果 使 用 AND 布 尔 操作 符 ， 则 意味 着 查询 的 关键 词 都 要 出 现在 搜索 结果 中 ， 那 么 返回 的 将 基本 上 都 是 一 模 一 样 的 商品 。 


“ 虽然 OR 不 要 求 所 有 的 查询 关键 词 都 出 现在 搜索 结果 中 ， 但 是 结果 命中 查询 关键 词 越 多 ， 该 结果 排名 就 越 靠 前 。 这 种 相关 度 计算 和 相似 度 的 计算 是 一 致 的 。 








在 使 用 OR 的 同时 ,我们 也 不 希望 命中 查询 关键 词 过 少 的 结果 返回 ， 因 此 这 里 也 采用 了 minimum_should_match 参 数 ， 要 求 至 少 要 命中 30% 的 关键 词 。 执 行 之 后 ， 你 将 看 到 类 似 如 下 的 搜索 结果 : 




















{ 


DC 927 

"timed out": false, 

™ shards": { 

~ weotal": 3, 
"successful": 3, 
"failed": 0 

Ey 

Mien 
"total": 30, 


"max score": 64.25765, 


"en 下 
"_ingdex": "listing new", 
™ type": "listing", 
TE : "AVn4Zar7HuEIFqIHDXZ4", 
™_score": 64.25765, 
"source": { 
Sisting dm 28693; 
"listing title": "花香 四 季 长 白山 野生 蒲公英 茶 茶叶 婆 
婆 丁 50 克 "， 
"category id": "18", 
"category_name": "茶叶 " 


_index": "listing new", 
"” type": "listing", 
miqd": "AVn42Zar7HuEIFqIHDX2d", 
"score"; 62.963223, 
™ Source": { 
Listing de “n28686n; 
"listing title": "花香 四 季 长 白山 野生 薄 公 英 茶 茶叶 婆 
婆 丁 50 克 "， 
"category id": "18", 
"category_name": "茶叶 " 


" index": "listing new", 
"type": "listing"™, 
"id": "AVn4ZartHuEIFqIHDTTP", 
"score": 21.076311, 
Curee": 

"Tisting ton "11884" 


"listing title": "花香 四 季 亚麻 将 油 500ml+ 紫 苏 籽 油 


500ml 送 蒲公英 茶 一 盒 "， 
"category id": "9", 
"category_name": “" 食 用 油 " 





"listing new", 

"type": "listing"™, 

"wid : "AVn4Zar6HUEIFqIHDXJr", 

" score": 18.272518, 

source": { 
WI Totine dd: A7656w, 
"listing title": " 薄 公 英 茶 野生 蒲公英 干 75 克 2.5 克 30 
"cabegory QI 
"category_name": "茶叶 " 











_index": "listing new", 

"listing", 

; "AVNn4ZarS5HuEIFqIHDW7o", 

" score": 14.976688, 

ee 

"listing ia": "26757%; 

"listing title": " 红 尊 花草 茶 金银花 之 乡 特级 野生 忍 
冬 花 ”金银花 50 克 镀 清热 降 火 花茶 茶叶 "， 

"category id": "18", 

"category_name": "茶叶 " 





"_ index": "listing new", 
"type": "listing", 
"id": "AVn4ZartHuEIFqIHDTbG", 
"score": 13.808004, 
SoUurcer: 
nisting icd sy M12381, 
"listing title": "花香 四 季 冷 榨 野生 山 核桃 油 核桃 油 
500ml 2 艺 ”礼盒 装 ” 婴 幼儿 食用 油 "， 
"category id": 9, 
"category_name": “" 食 用 油 " 





index": "listing new", 

"type": "listing"™, 

WE : "AVn4Zar6HUuEIFqIHDXRM", 

YOM "3. 70332, 

“source": 1 

"listing id 29.37 

"listing title": "大 益 茶叶 醇香 四 季 普洱 茶 散 茶 熟 
201 批 次 80g 饶 2 饶 "， 

"category id": "18", 

"category_name": "茶叶 " 





”index": "listing new", 

™ type": "listing", 

Wid : "AVn4Zar6HuUEIFqIHDXON", 

wpeOre.s 321682204 

"source": { 
"listing id N27946"; 
"listing title": " 红 尊 野 茶 超 值 组 合 金银花 50 克 政 
瑰 花茶 50 克 柠檬 片 55 克 菊花 茶 55 克 花草 茶 茶叶 "v 
"category id": "18", 
"category_name": "茶叶 " 





" index": "listing new", 

"type": "listing"™, 

"id": "AVn4Zar5HUuEIFqIHDXBU", 

SC T3152653x 

" Source": { 
"listing id Wl 
"listing title": " 意 合 
健康 养 身 饮品 花 茶叶 
"category id": "18", 
"category_name": "茶叶 " 





紫 玫瑰 50 克 袋 纯 天 然 花草 茶 
国产 野生 玫瑰 美 白 "， 


" index": "listing new", 

"type": "listing™, 

" id": "AVn4Zar6HuEIFqIHDXN7", 

"score": 13.143641, 

™ source": { 
WIistineg Ld: A729, 
"listing title": " 红 尊 野 茶 超 值 组 合 金银花 50 克 下 
瑰 花茶 50 克 柠檬 片 55 克 菊花 茶 55 克 花草 茶 茶叶 "， 
"category Ga MLO, 
"category_name": "茶叶 " 


] 
] 
"aggregations": { 
"categories": { 
"doc count error upper bound": 0, 
"sum other doc count": 0, 
"buckets": [ 
{ 


杂 


"key": "茶叶" 
"doc count": 28 


"key": "食用 油 "， 


"doc count": 2 











怎么 样 ， 相 似 的 效果 不 错 吧 ? 而 且 ， 只 花费 了 92 毫 秒 ， 完 全 可 以 作为 实时 查询 。 之 所 以 会 如 此 高 效 ， 主 要 是 得 益 于 搜索 引擎 的 倒 排 索引 。 当 然 ， 这 里 只 是 一 个 特殊 的 例子 ， 我 们 还 不 确定 整体 而 言 ， 这 
样 做 的 相似 查找 是 否 奏效 。 为 了 验证 其 效果 ， 可 以 进行 一 次 有 趣 的 实验 : 使 用 搜索 引擎 ， 来 打造 KNN 的 分 类 器 。 其 假设 就 是 ， 如 果 基于 搜索 引擎 的 相关 性 而 发 现 的 最 近邻 ， 能 够 帮助 我 们 合理 地 预测 商品 的 
分 类 ， 那 么 就 认为 搜索 引 丈 提 供 的 相似 度 衡量 也 是 合理 有 效 的。 在 这 个 假设 的 基础 上 ， 该 方法 的 大 致 步骤 如 下 所 示 。 















































1) 遍历 所 有 商品 的 标题 ， 对 于 每 个 标题 ， 查 询 Elasticsearch 的 搜索 引擎 ， 取 出 搜索 结果 中 排名 前 10 的 商品 。 相 当 于 KNN 算 法 中 最 近邻 的 查找 。 





2) 对 于 取出 的 10 件 商品 ， 根 据 大 部 分 商品 的 分 类 ， 预 测 给 定 商品 的 分 类 。 相 当 于 KNN 算 法 中 分 类 的 预测 。 
3) 比较 给 定 商 品 的 预测 分 类 和 实际 分 类 ， 计 算 准确 性 的 百分比 。 相 当 于 KNN 算 法 的 准确 率 评估 。 


方法 的 主要 实现 代码 如 下 : 








// 根据 输入 的 商品 标题 ， 预 测 其 分 类 
public String predict (String title, Long idq) { 


Map<String, Object> queryParams = new HashMap<>(); 
// 和 Solr 有 所 不 同 ， 需 要 在 这 里 指定 索引 和 类 型 


queryParams .put ("index", "listing new"); 
queryParams .put ("type", "listing"); 





// 查询 关键 词 

queryParams .put ery", title) 

部 人 了 询 

queryParams .put ("fields", new String[] {"listing te) 过 

queryParams .Put ("from", 0); // 从 第 1 条 结 果 记 录 开 始 

queryParams .Put ("size", 11) // 返回 前 10 条 结果 记录 (为 了 排除 输入 的 商 
W 品 自己 ， 取 11 个 结果 ) 

queryParams .Put ("mode", "MultiMatchQuery"); // 选择 基础 查询 模式 


// 统计 每 个 分 类 的 商品 数量 
Map<String, Integer> counters = new HashMap<> () 7 
try { 
JsonNode jnDocs = mapper.readValue (ese.query (queryParams), JsonNode.class) 
.get ("hits") .get ("hits"); 
Iterator<JsonNode> iter = jnDocs.iterator () 7 
while (iter.hasNext()) { 
JsonNode jnDoc = iter.next () 
// 由 于 搜索 引 | 擎 中 包含 答 从 商品 术 筷 ， 排除 它 自己 。 也 可 以 修改 ElasticSearchEngineBasic 
// 的 实现 ， 使 用 filter 来 排除 


if (jnDoc.get(" source") .get ("listing id").asLong() 一 id) continue; 


String categoryName = jnDoc.get (" source") .get ("category name") .asText (); 
if (!counters.containsKey (categoryName)) { i 
counters.put (categoryName, 1); 
} else { 
counters .put (categoryName, counters.get (categoryName) + 1); 
} 
} 


} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printSstackTrace (); 
return ""; 


} 


// 获取 商品 数量 最 多 的 分 类 ， 将 其 作为 输入 商品 的 预测 分 类 
int max = Integer.MIN VALUE; 
String label = ""; 
for (String categoryName : counters.keySet()) { 
int count = counters.get (categoryName); 
if (count > max) { 
max = count; 
label = categoryName; 


return label; 
} 


// 遍历 整个 商品 列表 ， 获 取 准确 率 
public double getAccuracy (String fileName) { 


try { 
int totalCount = 0, correctCount = 0; 


// 遍历 商品 列表 
BufferedReader br = new BufferedReader (new FileReader (fileName)); 
String strLine = null; 
while ((strLine = br.readLine()) != null) { 
String[] tokens = strLine.split(™\t"); 
Long listingId = Long.parseLong (tokens[0]); 
String listingTitle = tokens[1]; 
String categoryName = tokens[3]; 


// 如 果 预 测 的 分 类 和 商品 的 真实 分 类 一 致 ， 则 认为 正确 
if (categoryName .equalsIgnoreCase (predict (listingTitle, listingId))) { 
CorrectCount ++7 


} 


totalCount ++; 
if (totalCount % 1000 == 0) { 
System.out .println (String.format ("已 完成 %d 次 预测 "，totalCount)); 
} 
} 


br.close(); 

// 返回 准确 率 

return ((double) correctCount) / totalCount; 
} catch (Exception e) { 

// TODO: handle exception 


e.printstackTrace (); 


return -1.0; 





然后 在 main 浮 数 中 进行 测试 : 





// Elasticsearch 服 务 器 的 设置 ， 可 以 根据 你 的 需要 进行 设置 

Map<String, Object> serverParams = new HashMap<>() 
serverParams.put ("server", new byte[]{ (byte)192, (byte)168,1,48}); 
SerVerParams .Put ("port", 9300); 

serverParams.put ("cluster", "ECommerce"); 


ElasticsearchBasedKNN ebknn = new ElasticsearchBasedKNN (serverParams); 
System.out .Println( 
ebknn.getAccuracy ("/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/ 


listing-segmented-shuffled-noheader .txt") 
); 


ebknn.cleanup (); 





可 以 得 到 如 下 的 结果 : 





已 完成 1000 次 预测 

已 完成 2000 次 预测 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/O0EBPS/Text/... 
已 完成 27000 次 预测 ” 

已 完成 28000 次 预测 

0.9741517452797325 


最 终 的 准确 率 是 97% 以 上 ， 和 第 1 章 的 KNN 分 类 或 NB (朴素 贝 叶 斯 ) 分 类 效果 基本 上 是 一 致 的 。 性 能 上 ，28000 多 次 查询 所 花费 的 时 间 只 有 20 秒 不 到 ， 每 次 查询 不 到 1 毫秒 。 可 以 认为 ，Elasticsearch 
这 种 搜索 引擎 可 以 胜任 基于 文本 内 容 的 相似 度 衡量 。 更 何况 如 前 所 述 ， 我 们 完全 可 以 自 定义 相似 度 函 数 ， 以 符合 不 同 的 业务 场景 。 这 是 个 非常 好 的 消息 ， 如 果 搜 索引 擎 可 以 帮助 我 们 实现 基于 内 容 的 推荐 ， 


那么 它 就 很 强大 了 。 例 如 按照 销售 区 域 、 价 格 、 库 存 等 不 同 因 素 的 排序 ， 都 是 搜索 引擎 的 强项 。 而 且 只 要 更 新 商品 的 这 些 属性 ,推荐 结果 就 能 自动 地 发 生 相 应 的 变化 。 甚 至 还 有 可 能 ,我们 将 搜索 引擎 和 推 
荐 系统 的 基础 部 分 合 二 为 一 。 对 于 这 个 实验 的 完整 代码 ， 请 访问 : 





























https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Recommendation/RecommendationImplementation 























如 果 我 们 理解 了 如 何在 物品 集合 上 进行 基于 内 容 特征 的 推荐 ， 那 么 在 用 户 集合 上 进行 基于 内 容 特征 的 推荐 也 是 非常 近似 的 过 程 ， 只 是 有 如 下 两 个 主要 的 不 同 之 处 。 





:用户 的 内 容 特 征 不 再 是 商品 标题 ， 而 是 用 户 的 年 龄 、 性 别 、 职 业 、 爱 好 等 属性 。 


:发现 相 似 用 户 之 后 ， 还 需要 将 这 些 用 户 的 常用 物品 聚集 起 来 ， 进 行 物品 的 推荐 。 这 点 在 协同 过 滤 的 框架 中 也 会 得 到 体现 。 








接 下 来 我 们 就 来 看 看 如 何 利 用 Mahout 现 有 的 功能 模块 ， 进 行 基于 协同 过 滤 的 推荐 。 














10.8.2 ”基于 行为 特征 的 推荐 








1. 用 户 行为 数据 


























协同 过 滤 模 型 的 关键 ， 是 用 户 和 物品 之 间 的 关联 二 维 矩阵 : 一 个 维度 是 用 户 ， 另 一 个 维度 就 是 物品 。 在 电 商 的 应 用 中 ， 和 矩阵 里 的 特征 值 可 以 根据 不 同 的 购物 行为 来 进行 定义 ， 包 括 浏览 收藏、 购买 ， 
等 等 。 下 面 就 是 一 个 使 用 R 存 储 的 、3 位 用 户 对 6 件 商品 喜好 程度 的 例子 : 

































































> mx 

[1,1] [,2] [,3] 
[17:] 0.25 0.28 0.87 
2] O11 06 O09 
[3,] 0.28 0.08 0.67 
[47] O31 075. 0.%5 
[S50] 0.85 0.68 0.27 
[6,] 0.22 0:78 0.53 



































通过 这 类 乱 阵 的 计算 ， 就 能 实现 诸如 协同 过 滤 这 样 的 算法 。 不 过 ， 当 用 户 行为 数据 规模 还 很 小 的 时 候 ， 就 会 产生 稀 玻 和 矩 阵 !1， 导 致 很 多 时 候 推荐 的 结果 为 零 或 很 少 。 这 时 ， 常 用 的 解决 办 法 有 如 下 几 


“ 将 商品 的 维度 转换 为 分 类 维度 。 这 是 非常 直观 的 方式 ， 用 户 访问 菜 个 具体 的 商品 概率 可 能 非常 低 ， 但 是 访问 该 商品 分 类 的 可 能 性 就 非常 高 。 分 类 一 般 也 是 多 个 层级 的 ， 分 类 的 粒度 越 粗 ， 推 荐 的 覆盖 
面 就 会 越 广 ， 但 是 精确 度 会 越 差 。 


“ 将 商品 维度 换 为 商品 聚 类 。 根 据 商 品 的 内 容 特 征 ， 将 相似 的 商品 聚 为 一 组 。 可 以 认为 这 是 上 面 一 种 方法 的 扩展 ， 不 过 粒度 通常 小 于 分 类 ， 因 此 形成 的 推荐 也 会 更 精准 些 。 该 方式 也 是 内 容 特征 和 行为 
特征 结合 的 一 种 。 


“ 将 用 户 维度 换 为 用 户 聚 类 。 类 似 上 面 的 一 种 ， 不 过 是 根据 用 户 的 内 容 特征 ， 将 相似 的 用 户 聚 为 一 组 。 该 方式 也 是 内 容 特征 和 行为 特征 结合 的 一 种 。 





“ 拉 长 统计 的 时 间 窗 口 。 例 如 ， 原 本 是 观察 最 近 一 天 的 数据 ， 现 在 改 为 观察 最 近 一 周 的 数据 。 这 样 菜 位 用 户 访问 菜 款 商品 的 概率 也 会 提升 。 





要 注意 这 几 种 方式 都 是 通过 牺牲 精确 度 来 换取 覆盖 面 的 ， 和 信息 检索 里 的 精度 /召回 率 类 似 ， 需 要 取 一 个 平衡 点 。 


























为 了 突出 重点 ， 这 里 我 们 将 略 过 稀疏 矩阵 的 问题 ， 并 随机 生成 一 个 用 户 购买 商品 的 历史 记录 ， 作 为 两 者 的 关联 矩阵 。 其 格式 如 下 : 








UserID ListingIDs 

证 25494 7806 27344 25692 654 6606 21197 25939 14315 10699 5924 28421 11934 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS 
2 6220 21699 21857 19733 6747 19548 7943 6502 20608 21415 13098 25259 10471 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBE 
3 9262 23652 8994 26407 4715 5357 756 14766 6296 18403 25577 26755 19452 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/T 
4 23714 11291 5513 1657 10258 27463 8081 9821 4470 9144 18264 25139 27392 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/ 
5 20410 13291 11133 25679 10417 14840 15558 25880 1769 22379 11745 11288 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/T 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 人 


每 一 行 的 开始 均 是 用 户 的 ID， 随 后 是 其 购买 的 商品 列表 ， 也 就 是 一 组 商品 ID。 我 们 一 共 虚 拟 了 5 万 名 用 户 对 现 有 28706 件 商品 的 购买 ， 每 位 用 户 最 多 购买 过 1000 件 商品 (可 以 重复 ) 。 该 虚构 文件 的 完 


整 内 容 请 参见 : 





















































https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Recommendation/user-purchases.txt.zip 


2.Mahout 的 协同 过 滤 





























有 了 行为 特征 的 矩阵 ， 我 们 来 看 看 Mahout 能 做 些 什么 。Mahout 四 实际 上 包含 了 很 多 推荐 引擎 模型 的 实现 ， 大 多 都 是 源 于 基于 用 户 、 基 于 物品 和 基于 Slope-One 的 技术 。 还 有 一 些 实验 性 的 、 初 步 的 
SVD 和 矩阵 分 解 实现 。 我 们 可 以 通过 如 下 几 个 Java 语 言 的 类 来 建立 一 个 最 简单 的 Mahout 编 程 示例 。 








(1) 数据 模型 (DataModel) 

















对 于 用 户 偏好 数据 的 压缩 表示 ， 具 体 又 可 分 为 B] 如 下 几 种 。 








' FileDataModel: 从 文本 加 载 用 户 -物品 2 维和 矩阵 。 


“JDBCDataModel: 从 关系 型 数据 库 加 载 用 户 -物品 2 维 矩阵 。 


:GeneticDataModel: 从 内 容 中 加 载 用 户 -物品 2 维和 矩阵 。 


“ RecommendedItem: 推荐 的 物品 ， 通 常 是 以 列表 (List) 的 形式 返回 。 








(2) 基于 用 户 的 协同 过 滤 











1) 推荐 器 (Recommender) 。 














基于 用 户 推荐 算法 的 核心 实现 部 分 ， 主 要 分 为 以 下 两 种 。 

















:GeneticUserBasedRecommender: 基于 用 户 的 推荐 器 ， 用 户 对 物品 的 偏好 可 用 连续 的 数值 表示 。 
GenericBooleanPrefUserBasedRecommender: 基于 用 户 的 无 偏好 值 推荐 器 ， 用 户 对 物品 的 偏好 仅仅 用 0 或 1 来 表示 。 


2) UserSimilarity。 








根据 DataModel 进 行 计 算 ， 用 于 衡量 两 个 用 户 之 间 的 相似 度 。 它 是 基于 协同 过 滤 的 推荐 引擎 的 核心 部 分 ， 可 以 用 来 寻找 某 位 用 户 的 “近邻 ”。 常 见 的 计算 指标 在 《大 数据 架构 商业 之 路 》 一 书 中 有 介 
绍 ， 主 要 包括 如 下 几 种 。 








“ PearsonCorrelationSimilarity: 基于 皮尔 撑 相关 系数 的 相似 度 。 
“ EuclideanDistanceSimilatity: 基于 欧 氏 距离 的 相似 度 。 
:UncenteredCosineSimilatity: 基于 夹 角 余弦 的 相似 度 。 
“LogLikelihoodSimilarity: 基于 对 数 似 然 比 的 相似 度 。 
“SpearmanCorrelationSimilarity: 基于 斯 皮尔 曼 相关 系数 的 相似 度 。 
“ CityBlockSimilarity: 基于 曼哈顿 距离 的 相似 度 。 
: TanimotoCoefficientSimilarity: 基于 谷 本 系数 的 相似 度 。 

3) UserNeighborhood。 

对 此 ，Mahout 提 供 了 如 下 两 种 计算 方式 。 
: NearestNUserNeighborhood: 对 每 个 用 户 取 国定 数量 N 个 最 近邻 居 。 
“ ThresholdUserNeighborhood: 对 每 个 用 户 基于 一 定 的 限制 ， 取 落 在 相似 度 阔 值 以 内 的 所 有 用 户 为 邻居 。 
(3) 基于 物品 的 协同 过 滤 

1) 推荐 器 (Recommender) 。 


基于 物品 推荐 算法 的 核心 实现 部 分 ， 主 要 分 为 以 下 3 种 。 





GeneticItemBasedRecommendetr: 基于 物品 的 推荐 器 ， 用 户 对 物品 的 偏好 可 用 连续 的 数值 来 表示 。 
GenericBooleanPrefItemBasedRecommender: 基于 物品 的 无 偏好 值 推荐 器 ， 用 户 对 物品 的 偏好 仅仅 用 0 或 1 来 表示 。 
' KnnItemBasedRecommender: 基于 物品 的 KNN 推 荐 算法 。 


2) ltemsimilarity。 


























于 计算 物品 之 间 的 相似 度 。 具 体 计算 指标 可 选 类 型 请 参见 上 面 的 UserSimilarity。 








(4) 其 他 推荐 算法 
“ SlopeOneRecommender: Slope 推荐 算法 。 
' SVDRecommender: SVD 推 荐 算法 。 


“ TreeClusteringRecommender: TreeCluster 推 荐 算法 。 

















如 果 手 头 的 数据 中 ， 用 户 的 推荐 结果 有 经 过 人 为 的 打分 ， 那 么 还 能 通过 Mahout 的 评分 器 RecommenderEvaluator 进 行 量化 的 评测 。 它 有 以 下 几 种 实现 方式 。 
1) 测算 分 数 型 。 


计算 推荐 结果 排序 和 人 为 打分 的 差距 ， 具 体 分 为 如 下 两 种 形式 。 





* AverageAbsoluteDifferenceRecommenderEvaluator: 计算 平均 差 值 。 





* RMSRecommenderEvaluator: 计算 均 方 根 差 。 


2) 测算 准确 性 。 























可 采用 RecommenderlRStatsEvaluator 稀 量 包括 准确 率 、 精 度 和 召回 率 在 内 的 指标 ， 具 体 请 参考 第 4 章 关 于 信息 检索 系统 效果 的 评估 。 

















为 了 支持 海量 数据 ，Mahout 提 供 了 RecommenderJob (类 以 MapReduce 的 方式 ) 来 实现 协同 过 滤 。 该 类 将 各 种 Mapper 和 Reducer 组 件 连接 起 来 ， 让 Hadoop 集 群 接 手 后 面 一 系列 的 运 











(5) 准备 步骤 
































了 解 了 Mahout 用 于 推荐 的 基本 分 类 之 后 ， 我 们 将 分 别 实现 基于 物品 的 协同 过 滤 和 基于 用 户 的 协同 过 滤 。 作 为 准备 工作 之 一 ， 我 们 需要 使 用 ProcessForMahout 类 ， 将 原始 的 用 户 购 买 日 志 转 化 为 
Mahout 能 够 处 理 的 格式 。 该 类 位 于 RecommendationImplementation 项 目 中 的 Recommendation.RecommendationImplementation 包 中 ， 转 化 后 的 数据 格式 为 : 
































1,20484,1 

1718952;1 

1 7p 生 L S12: 二 

1,15368,1 

1,8715,1 

1725099;1 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/... 












































其 中 第 一 列表 示 用 户 ID， 第 二 列表 示 该 用 户 所 购买 的 商品 ID， 第 三 列表 示 用 户 对 其 的 喜好 程度 ， 这 里 使 用 购买 次 数 来 表示 。 转 化 后 完整 的 数据 文件 位 于 : 


























https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Recommendation/user-purchases.mahout.csv.zip 


然后 在 RecommendationImplementation 项 目的 pom.xml 中 ， 添 加 Mahout 的 依赖 包 : 





<!-- Mahout 的 依赖 Jar 包 --> 

<!-- https://mnrepository.com/artifact/org.apache.mahout/mahout-core --> 

<dependency> 
<groupId>org.apache.mahout</groupId> 
<artifactId>mahout-core</artifactId> 
<version>0.9</version> 

</dependency> 

<dependency> 
<groupId>org.apache.mahout</groupId> 
<artifactId>mahout-integration</artifactId> 
<version>0.9</version> 

</dependency> 

<dependency> 
<groupId>org.apache.mahout</groupId> 
<artifactId>mahout-math</artifactId> 
<version>0.9</version> 

</dependency> 





(6) 实现 基于 物品 的 协同 过 滤 


在 RecommendationImplementation 项 目的 Recommendation.RecommendationImplementation 包 中 ， 创 建 MahoutBasedltemBasedCF 类 ， 实 现 基于 物品 的 协同 过 滤 。 推 荐 器 初始 化 的 代码 


为 : 
// 初始 化 
public MahoutBasedItemBasedCF (String fileName) { 
try { 
model = new FileDataModel (new File (fileName)); 
is = new PearsonCorrelationSimilarity (model); // 基于 皮尔 逊 相关 系数 的 相似 度 





gir = new GenericItemBasedRecommender (model，is); // 创建 基于 物品 的 协同 过 滤 推 荐 
} catch (Exception e) { 

// TODO Auto-generated catch block 

e.printstackTrace (); 





推荐 的 代码 为 : 





// 通过 给 定 的 用 户 ID 和 基于 物品 的 协同 过 滤 ， 进 行 推荐 


public List<Long> recommend (Long userID) { 
List<Long> listingIds = new ArrayList<>(); 
try { 
List<RecommendedItem> recommItems = gir.recommend (userID, 10); 


System.out .println (String.format (" 基 于 物品 的 协同 过 滤 - 推 荐 商品 是 : ") ) ; 
for (RecommendedItem ri : recommItems) { 
listingIds.add (ri.getItemID()); 
System.out .println (String.format ("\t%s", listingId2LisintTitle. 
get (ri.getItemID()))); 
} 


} catch (TasteException e) { 
// TODO Auto-generated catch block 
e.PrintStackTrace (); 

} 


return listingIds; 


运行 main 函 数 中 的 测试 代码 : 





public static void main (String[] args) throws Exception { 
// TODO Auto-generated method stub 


MahoutBasedItemBasedCF micf = new MahoutBasedItemBasedCF ( 
"/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/user-purchases.mahout .csv"); 


// loadListing 函 数 仅 供 显示 之 用 

micf.loadListing( 
"/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing- 
segmented-shuffled-noheader .txt"); 


while (true) { 
BufferedReader strin=new BufferedReader (new InputStreamReader (System.in)); 
System.out .print ("请 输入 用 户 ID: "); 
String content = strin.readLine(); 


if ("exit".equalsIgnoreCase (content)) break; 


long start = System.currentTimeMillis(); 
micf.recommend (Long.parseLong (content)); 
long end = System.currentTimeMillis (); 
System.out.printin (String.format (" 耗 时 %f 秒 ", (end - start) / 1000.0)); 











你 将 看 到 类 似 于 图 10-16 所 示 的 截屏 。 











BR Problems @ Javadoc 把 Declaration 镶 Search | 园 console 避 | 外 Progress 


MahoutBasedltemBasedCF [Java Application] /Library/Java/JavaVirtualMachines/jdk1.8.0_92.jdk/Contents/Home/bin 


SLF4]: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 
SLF4J: Defaulting to no-operation (NOP) logger implementation 


SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details. 


请 输入 用 户 ID: 3 
基于 物品 的 协同 过 滤 - 推 荐 商品 是 : 
伊 苹 轩 tea stea 奶茶 抹茶 味 280ml 24 整 箱 装 
可 口 可 乐 碳酸 饮料 汽水 330ml 炙 x 2 黄 飞 红 麻辣 花生 76g 包 x2 
thinkpad s5 20b0001-ecd i5-3337u 6g 1tb+24 固态 2g 独 显 笔记 本 电脑 
耗 时 11.424000 秒 
请 输入 用 户 ID: 28 
基于 物品 的 协同 过 滤 - 推 荐 商品 是 : 
奥 利 奥 金 装 草莓 味 夹心 饼干 318g 盒 家 庭 装 


万 年 鲜 预 售 阳澄湖 大 席 蟹 礼盒 礼券 826 型 公 狠 4.0-4.4 两 母 稻 2.6-3.0 两 6 只 装 


saqi 萨 奇 埃 森 图 基 4 号 矿泉 水 500ml 俄罗斯 进口 

淘 豆 小 淘 豆 蟹 香 驶 豆 500g 休闲 零食 

天 昆 百 果 新 疆 特产 红 束 360g 二 级 骏 囊 精品 袋 装 大 更 
金龙 鱼 盘锦 大 米 5kg 和 袋 x 2 

雪 省 xq 雪 省 面粉 包子 馒头 自 发 粉 中 筋 粉 1 公斤 原装 
世纪 天 元 sS500+ cdma 电信 老人 手机 


apple 苹果 ipad mini 16g 平板 电脑 wifi 版 ipad mini md432 md531 16g 7.9 英 寸 平板 
华 志 硕 amd x4 730 四 核 4g 500g gt610 2g 独 显 19 寸 剑齿虎 Led 液晶 显示 电脑 整 机 


耗 时 22 .812000 秒 
请 输入 用 户 ID: 


图 10-16 ”Mahout 所 实现 的 基于 物品 的 协同 过 滤 推 荐 








从 图 10-16 中 我 们 也 可 以 看 出 ， 在 当前 的 模拟 数据 集 上 ， 由 于 商品 较 多 ， 所 以 基于 物品 的 协同 过 滤 速 度 很 慢 ， 耗 时 达到 了 数 十 秒 。 此 时 可 以 将 其 放 入 离线 的 阶段 ， 而 在 线 部 分 则 由 Redis 这 样 的 缓存 层 来 














(7) 实现 基于 用 户 的 协同 过 滤 

















接 下 来 ， 在 RecommendationImplementation 项 目的 Recommendation.RecommendationImplementation 包 中 ， 创 建 MahoutBasedUserBasedCF 类 ， 实 现 基 了 
代码 为 : 











户 的 协同 过 滤 。 推 荐 器 初始 化 的 





// 初始 化 
public MahoutBasedUserBasedCF (String fileName) { 
te 扣 
model = new FileDataModel (new File (fileName)); 
is = new EuclideanDistanceSimilarity (model); // 基于 欧 氏 距离 的 相似 度 


un = new NearestNUserNeighborhood(5, is, model); 
// 选取 至 多 5 个 最 近邻 


gur = new GenericUserBasedRecommender (model, un, is); 


} catch (Exception e) { 
// TODO Auto-generated catch block 
e.PrintStackTrace (); 
} 
} 


推荐 的 代码 为 : 





// 通过 给 定 的 用 户 ID 和 基于 用 户 的 协同 过 滤 ， 进 行 推荐 


public List<Long> recommend (Long userID) { 
List<Long> listingIds = new ArrayList<>(); 
try { 
List<RecommendedItem> recommItems = gur.recommend (userID, 10); 


System.out .printin (String.format ("基于 用 户 的 协同 过 滤 - 推 荐 商品 是 : ") ); 

for (RecommendedItem ri : recommItems) { 
listingIds.add (ri.getItemID()); 
System.out .println (String.format ("\t%s", listingId2LisintTitle.get (ri. 
getItemID()))); 

} 


} catch (TasteException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 

} 


return listingIds; 





运行 main 函 数 中 的 测试 代码 : 





public static void main (String[] args) throws Exception { 
// TODO Auto-generated method stub 


MahoutBasedUserBasedCF mucf = new MahoutBasedUserBasedCF ( 
"/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/user-purchases. 
mahout .csv"); 


loadListjing 函 数 仅 供 上 显示 之 用 
mucf.loadListing("/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/ 
listing-segmented-shuffled-noheader .txt") 7 


while (true) { 
BufferedReader strin=new BufferedReader (new InputStreamReader 
(System.in)); 
System.out .print ("请 输入 用 户 ID: ") 7 
String content = strin.readLine(); 


if ("exit".equalsIgnoreCase (content)) break; 


long start = System.currentTimeMillis(); 
mucf.recommend (Long .parseLong (content)); 
long end = System.currentTimeMillis(); 
System.out .Println (String.format (" 耗 时 %f 秒 "， (end - start) 
/ 1000.0)); 








你 将 看 到 类 似 于 图 10-17 所 示 的 截屏 。 











BR Problems @ Javadoc [@ Declaration 入 Search | 辐 Console 3 | Bg Progress 


MahoutBasedUserBasedCF [Java Application] /Library/Java/JavaVirtual Machines/jdk1.8.0_92.jdk/Contents/Home/bi 
SLF4]: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 
SLF4J: Defaulting to no-operation (NOP) logger implementation 
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details. 
请 输入 用 户 ID: 3 
基于 用 户 的 协同 过 滤 - 推 荐 商品 是 : 
hk 越南 进口 火龙 果 白 心 
zte 中 兴 q701c 电信 
天 喔 茶 庄 蜂蜜 莫 越 
袋 


版 
每 
两 } 


umei 荷花 清 
送 


6D 洱 济 


Oml 
心 柚 5 个 家 庭 装 
水 果 蓝莓 护 眼 水 果 


基于 用 户 的 协同 过 滤 - 推 荐 商品 是 : 
海飞丝 丝 源 复活 头皮 养护 秀 发 丰盈 露 120m1 
采 彩 果 商 味 落花 生 158g 4 袋 
zte 中 兴 q701c 电信 版 天 姻 3g 5.5 英 寸 高 清 屏 强劲 四 核 安 卓 智能 手机 
77 binggrae 宾 格 瑞 香蕉 味 脱脂 纯 牛奶 饮料 200mL x 12 盒 韩国 进口 牛奶 
优 恩 美 umei 荷花 清爽 沐浴 露 沐浴 液 无 添加 沐浴 乳 纯净 身体 清洁 高 保湿 专柜 正品 250ml 
51 种 地 一 粒 鲜 新 大 米 10 斤 2 袋 家 庭 装 崇 
缤纷 乐 费列罗 至 品 巧克力 礼盒 t24 粒 三 
意 合金 桔 片 买 二 送 一 100 克 和 袋 特级 人 金 果 味 茶 富 含 维生素 < 
黄金 田园 huang jin tian yuan 新 疆 100 金 田园 番茄 汁 一 箱 10 瓶 248@m1 
dove 多 芬 男士 护理 沐浴 露 400m1 清凉 倍 





图 10-17 Mahout 所 实现 的 基于 用 户 的 协同 过 滤 推 荐 


上 述 所 有 Mahout 实 践 相关 的 代码 ， 可 以 参阅 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Recommendation/RecommendationImplementation 











3. 利 用 搜索 引擎 实现 在 线 推荐 


























在 基于 内 容 的 推荐 中 ， 我 们 已 经 探讨 了 使 用 搜索 引擎 来 实现 推荐 的 可 能 性 。 那 么 ， 对 于 基于 物品 的 协同 过 滤 和 基于 用 户 的 协同 过 滤 ， 是 否 也 有 可 能 通过 搜索 引擎 来 实现 呢 ? 答案 是 肯定 的 ， 这 里 仍然 以 
Elasticsearch 的 实现 为 例 ， 逐 个 来 分 析 。 











(1) 基于 物品 的 协同 过 滤 




















首先 ， 我 们 来 构建 一 个 基于 物品 的 协同 过 滤 。 从 之 前 的 理论 介绍 可 以 得 知 ， 基 于 物品 的 协同 过 滤 是 根据 用 户 的 访问 行为 ， 查 找 相似 的 物品 。 因 此 仍然 是 以 商品 为 单位 ， 构 建 索 引 的 文档 。 不 过 ， 此 处 要 
为 每 篇 商品 文档 加 入 一 个 字段 ， 用 于 索引 (可 能 还 需要 存储 ) 哪些 用 户 曾经 购买 过 该 商品 。 有 了 这 个 字段 ， 我 们 就 可 以 以 此 为 依据 ， 查 找 相似 的 商品 。 为 了 实现 这 点 ， 需 要 建立 新 的 索引 listing_vs_user， 向 
端点 http:WiMac2015: 9200/listing_vs_userPUT 如 下 内 容 : 



































{ 


Veettings™ 全 于 








"analysis" : { 
"analyzer" : { 
"ik synonym" : 
"tokenizer" : "ik smart", 
"filter" : ["synonym"] 
} 
] 7 
"filter" : { 
"synonym" : { 
"type" : "synonym", 
"synonyms_path" : "synonyms.txt" 
} 
} 
} 
"mappings" : { 
和 
"dynamic" : true, 
"properties" : { 
"listing title" { 
Ttype" text", 
"analyzer" : "ik synonym" 
}, 
"category name™" : { 
ntypen : ™text", 
"analyzer" : "ik_ synonym", 
"fielddata" : true 
Pe 
i 
Wtype" : "long" 


}, 
"category id": { 
"type™: "Longn 





] 

"purchased users": { 
"type"T "text" 

: 




















注意 加 粗 斜体 的 部 分 ，purchased_users 字 段 是 listing_vs_user 索 引 和 之 前 listing_new 索 引 最 大 的 区 别 , 我们 











它 来 索引 并 存储 曾经 买 过 该 商品 的 








然后 在 RecommendationImplementation 项 目 中 ， 进 入 SearchEngine.SearchEnginelmplementation.Elasticsearch 包 ， 并 在 之 前 ProcessForMySQL 类 的 基础 上 ,编写 新 的 

















ProcessForMySQLAndUserPurchase 类 。 它 除了 从 MySQL 数 据 库 中 读 取 商品 数据 之 外 ， 同 时 还 会 加 载 
体 部 分 显示 出 来 : 





户 购买 的 信息 ， 生 成 这 里 Elasticsearch 所 需 的 索引 








源 文件 。 主 要 代码 的 不 同 之 处 已 

















如 下 的 加 粗 斜 





public void process (String sqlConnectionUrl, String PurchaseFileName，String outputFileName) { 


// 加 载 用 户 购买 的 记录 ， 并 转 为 商品 到 用 户 的 记录 
Map<Long, String> listing2users = new HashMap<>(); 
Ley 


BufferedReader br = new BufferedReader (new FileReader (purchaseFileName)); 
String strLine = br.readLine(); // 跳 过 header 行 
while ((strLine = br.readLine()) != null) { 

String[] tokens = strLine.split(™\t"); 

if (tokens.length < 2) continue; 


String userId = tokens[0]; 
String[] listingIds = tokens[1] .split(™" "); 


for (String listingId : listingIds) { 
Long llistingId = Long.parseLong (listingId); 
if (listing2users.containsKey (llistingId)) { 
listing2users.put (llistingId, 
String.format ("%s %s", listing2users.get (llistingId), userId)); 
} else { 
listing2users.put (llistingId, userId); 
} 


} 
br.close(); 


} catch (Exception e) { 
// TODO: handle exception 
e.printstackTrace (); 


Connection conn = null; 
PrintWriter pw = null; 


try { 
// 使 用 MySQL 的 驱动 器 ， 需 要 在 Pom.xml 中 指定 依赖 的 mysql 包 


com.mysql.jdbc.Driver driver = new com.mysql.jdbc.Driver(); 

// 一 个 Connection 进 行 一 个 数据 库 连 接 

conn = DriverManager.getConnection (sqlConnectionUr1) 7 

// Statement 里 面 带 有 很 多 方法 ， 比 如 executeUpdate 可 以 实现 插入 、 更 新 和 删除 等 


Statement stmt = conn.createStatement (); 


// 保存 输出 的 文件 


Pw = new PrintWriter (new FileWriter (outputFileName)); 


int batch = 1000; // 每 次 读 取 1000 条 记录 并 写 入 输出 文件 


int start = 0; 


String jsonLinel = "{ \"index\™" : { \" index\" : \"listing vs user\", \"_ 
type\" : \"listing\" } }"; 
while (true) { 


String sql = String.format ("SELECT * FROM listing segmented shuffled limit 
gQ "Sd" start, batehys 
ResultSet rs = stmt.executeQuery (sql); // executeQuery 语 句 会 返回 SQL 


// 查询 的 结果 集 


int returnCnt = 0; 
while (rs.next()) { 


// 读 取 记录 并 拼装 JSON 对 象 

long listing id = rs.getLong("listing id"); 

String listing title = rs.getString ("listing title"); 
long category id = rs.getLong ("category id")? 

String category name = rs.getString ("category name"); 
// 下 述 这 行 是 新 增 的 ， 用 于 写 入 购买 了 该 商品 的 用 户 列 表 

String users = listing2users.get (listing id) 7 

String jsonLine2 = String.format ("{ \"listing id\" : \"%d\", \"listing_ 
titlied s MSV 

+ "\"category id\" : \"%d\", \"category name\" : 
+ "\"purchased users\" : \"%s\™ }", 

listing id, listing title, 

category id, category name, 

users); 





\rgs\, i" 


// 将 JSON 对 象 写 入 输出 文件 
Pw.Println (jsonLinel) 7 
Pw.Println (jsonLine2) 7 


returnCnt ++; 
} 


if (returnCnt < batch) break; // 没有 更 多 的 查询 结果 了 ， 退 出 
start += batch; // 查询 下 一 1000 条 记录 

i 

pw.close(); 


conn.close(); 


} catch (Exception e) { 
// TODO: handle exception 
e.printstackTrace (); 


} finally { // 最 后 的 扫尾 工作 
if (pw != null) pw.close(); 
if (conn != null) 
try { 


conn.close(); 

} catch (SQLException e) { 
// TODO Auto-generated catch block 
e.PrintStackTrace (); 

} 





运行 完毕 后 ， 你 将 看 到 类 似 如 下 的 格式 : 
















{ "index" : { " index" : "listing vs user", "type"”: "]isting"” } } 

{ "listing id" : "l"， "listing title™ : " 答 巢 脆 脆 泌 威 化 巧克力 巧克力 味 夹心 20g 24 盒 "，"category_id" : "1"，"category_name”: "饼干 "，"purchased users" : "18 184 194 231 63( 
{ "index™ 3 inde "listing vs user", " type" "listing" } } 

fisting kaw 3 ua isting title™ : " 奥 利 奥 原 味 夹心 饼干 390g 袋 ",，"category igd" : "1", "category_name"” : "饼干 ",，"purchased users" : "221 373 420 674 800 1119 1233 1240 128 
{ "index" : { index" : "listing vs user", " type" : "listing" } } 

{ "listing id" : "3"， "listing title" : " 嘉 顿 香 和 芍 薄饼 225g 盒 "，"category id" : "1"，"category name" ; "饼干 "，"purchased users" : "52 144 661 989 1051 1090 1576 1734 1763 178 
hi 


ttp://www.hzcourse. com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/ Er 





完整 的 文件 位 于 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Recommendation/listing-segmented-shuffled-userpurchases-for-elasticsearch.txt.zip 


仍然 采用 Elasticsearch 的 _bulk 端 点 ， 进 行 批量 的 索引 : 





[huangsean@iMac2015: /Users/huangsean]curl -s -XPOST iMac2015:9200/ bulk --data-binary "@ /Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/listing-segmented-shufflec 





索引 完毕 后 ,访问 如 下 端口 你 就 可 以 看 到 类 似 于 图 10-18 所 示 的 搜索 结果 : 





http://iMac2015: 9200/listing vs user/listing/_search 




















从 图 10-18 可 以 看 出 ， 对 于 给 定 的 商品 ， 购 买 过 该 商品 的 用 户 列表 已 经 写 入 索引 了 。 





“took”: 入 
"timed_out": false, 
"_shards": { 
“otat”: 过 
"successful": 5, 
"failed": 0 
}， 
"hits": { 
"total": 28786, 
"max_score": 1.0, 
ts Et 
{ 
"_index": "listing_vs_user", 
ype: "listing’, 
"_id": "AVpaZzgOehYmib16sYk8-0" ， 
"score”: 1238, 
"_source": { 
"tatlnm ad 2" 
"Listing_title":“ 奥 利 奥 原 味 夹心 饼干 390g 袋 "， 
"category_id": "1", 
"category_name" : “饼干 "， 
"purchased_users": "221 373 420 674 800 1119 1233 1249 1284 1315 1698 1741 
1758 1820 1827 1984 2319 2330 2396 2451 3096 3274 3354 3533 3963 4794 4884 5272 5335 
5670 6728 6846 7067 7232 7431 7766 7983 8610 8854 9229 9272 9312 9405 9549 9561 9763 
10009 10068 10129 10714 12313 12743 13217 13250 14362 14523 14728 14760 14810 14916 
15106 15328 15342 15361 15404 15460 15590 16534 16683 16819 16916 17015 17158 17555 


17570 17890 18249 18331 18476 18502 18536 18623 18766 18774 18792 19130 19131 19431 
19488 19701 19743 19745 20009 20009 20185 20197 20499 20696 20910 21083 21184 21220 
21319 21679 22005 22059 22144 22201 22430 22450 22522 22646 22839 23240 23258 23594 
23994 24012 24110 24213 24240 24759 25104 25115 25226 25339 25452 25909 26174 26387 
26473 26675 27358 27501 27745 27939 27965 28003 28147 28336 28369 28464 28491 29039 
29149 29497 29790 29994 30114 30248 30482 30699 30759 31298 31651 31722 31918 31934 
31960 32049 32274 32521 32558 33175 33292 33406 33521 33960 34218 34218 34491 34774 
34840 34846 34966 35085 35182 35819 35820 35831 36127 36320 36410 36413 36489 36579 
36708 36798 37162 37163 37342 37507 38334 38507 38741 38858 38900 39011 39233 39387 
39475 39645 39746 39861 40256 40658 40693 40768 40812 40857 40917 40977 41017 41602 
41687 41711 41729 41746 41802 41804 41885 42733 42969 43028 43379 43591 43713 43807 
43855 44053 44065 44151 44206 44396 44435 44755 44970 45237 45617 45671 45814 46208 
46231 46338 46419 46434 46551 47437 47454 47684 47956 48024 48387 48711 48925 49050 
49689 49689 49795 49898 50000" 
} 
}, 
{ 
"_index": "listing_vs_user", 
-type listing’, 
"_id": "AVpaZzQehYmib1i6sYk8-T", 
"score”: 1:@, 
“SOURCS 3 { 
"Vsting .id’: “7? 
"listing_title": "aji 尼 西亚 惊奇 网 片 饼干 起 土 味 200g 我 "， 
"category_id": "1", 
"category_name" : "饼干 "， 
"purchased_users": "48 92 392 525 529 566 840 868 1062 1361 1652 1993 2514 
2614 2929 3228 3520 3562 3689 3859 4126 4135 4201 4311 4747 4910 5038 5261 5286 5307 
5392 5740 6134 6180 6269 6426 6665 6792 6963 7073 7128 7540 7740 7971 8004 8107 8591 
8649 9059 9793 10113 10146 10454 10464 11354 11381 11498 11547 11614 11739 11819 
12051 12142 12156 12591 12623 12648 12871 12943 12961 12992 13426 13716 13864 14241 
15004 15505 15511 15659 15777 15790 15790 15843 15963 16142 16142 16152 16613 16698 
16731 16772 16797 16884 17118 17169 17244 17316 17336 17446 17488 17666 17699 17701 
17924 17926 18350 18552 19080 19106 19199 19286 19599 19812 19914 20108 20663 21049 
21387 21819 22013 22069 22128 22378 22478 22534 22633 22930 22946 23015 23181 23257 
23549 23586 23909 23957 24048 24527 24608 24614 24923 24998 25093 25361 257008 25747 
5867 26677 26768 2678 96 7397 27436 274 8622 29086 29 29457 29596 


图 10-18 加 入 购买 用 户 信息 的 listing_vs_usetr 索 引 


























一 切 就 绪 ， 下 面 的 问题 就 是 如 何 使 用 Elasticsearch 的 查询 ， 进 行 基于 用 户 的 协同 过 滤 。 为 了 便于 读者 的 理解 ， 我 们 将 基于 物品 的 协同 过 滤 简 化 为 一 步 ， 任 务 是 根据 用 户 所 购买 的 某 件 商品 ， 查 找 其 相似 
品 。 那 么 最 基本 的 方法 是 ， 向 端口 http:WiMac2015: 9200/listing_vs_user/listing/_search 发 送 类 似 下 面 的 查询 : 






































{ 
"query” { 
"matc Sh" | 
"purchased 1 USeES” > 
"query"” ; "21 373 420， OA on 1119 1233 1240 1284 1315 1698 1741 1758 1820 1827 1984 2319 2330 2396 2451 3096 3274 3354 3533 3963 4794 4884 5272 5335 5670 6728 € 
"minimum should match 


’ 
"aggs" : { 
"categories" : { 

"terms" : { "field" : "category name" } 























这 个 查询 是 针对 purchased_users 字 段 ， 查 找 还 有 哪些 其 他 的 商品 和 当前 商品 有 着 共同 的 购买 者 ， 由 于 我 们 保留 了 重复 的 购买 ， 因 此 对 于 同一 个 商品 ， 购 买 者 的 1D 会 出 现 多 次 ， 正 好 起 到 了 词 频 tf 的 作 
。 将 这 个 过 程 和 图 10-6 进 行 对 比 ， 你 将 会 发 现 两 者 的 原理 相通 ， 所 以 这 种 查询 可 产生 近似 的 基于 物品 之 推荐 。 需 要 注意 的 是 ， 由 于 和 矩 阵 比较 稀疏 ， 因 此 minimum_should_match 需 要 设置 的 很 小 ， 否 则 
很 可 能 就 会 无 法 返回 任何 结果 。 具 体 的 值 需要 结合 实际 的 案例 进行 测试 。 运 行 该 查询 之 后 ， 你 将 得 到 类 似 图 10-19 的 搜索 结果 。 在 此 基础 上 利用 Elasticsearch 的 客户 端 打 造 实时 推荐 模块 就 很 容易 了 ， 主 要 
步骤 具体 如 下 。 


















































1) 根据 给 定 的 商品 ID， 搜 索 并 获取 该 商品 的 purchased_users 字 段 。 





2) 根据 获取 的 purchased_users 字 段 内 容 ， 构 建 针对 purchased_users 字 段 的 查询 ， 并 在 商品 中 进行 搜索 。 


返回 排名 靠 前 的 商品 搜索 结果 ， 作 为 推荐 内 容 。 


据 此 ， 我们 撰写 ElasticsearchltemBasedCF 类 的 示例 代码 ， 其 代码 的 核心 部 分 如 下 : 





// 通过 给 定 的 商品 ID 和 基于 物品 的 协同 过 滤 ， 进 行 推荐 
public List<Long> recommend (Long 1istingId) { 


List<Long> listingIds = new ArrayList<>(); 


tt 
Map<String, Object> queryParams = new HashMap<>(); 


// 和 Solr 有 所 不 同 ， 需 要 在 这 里 指定 索引 和 类 型 
queryParams .put ("index", "listing vs user"); 
queryParams .put ("type", "listing"); 


// 根据 商品 ID， 查询 哪些 用 户 购买 过 该 商品 
queryParams.put ("query", listingId); 





queryParams .put ("fields", new String[] {"listing id"}); 
queryParams .put ("from", 0); // 从 第 1 条 结果 记录 开始 
queryParams .put (" size", 了 1) 过 

queryParams .Put ("mode", "MultiMatchQuery"); // 选择 基础 查询 模式 


JsonNode jnDocs = mapper.readValue (ese.query (queryParams), JsonNode.class) 
.get ("hits") .get ("hits"); 
Iterator<JsonNode> iter = jnDocs.iterator () 7 
String users = ""; 
if (iter.hasNext()) { 
JsonNode jnDoc = iter.next (); 
users = jnDoc.get (" source") .get ("purchased users") .asText (); 
System.out .Println( Sr 
String.format (" 给 定 的 商品 是 : %s"，jnDoc.get ("_source") .get ("listing_ 
title") .asText () ) 
) 7 
} 


System.out .println (String.format (" 基 于 物品 的 协同 过 滤 - 推 荐 商品 是 : ") ) 7 
// 根据 购买 者 列表 构建 查询 ， 进 行 基于 商品 的 协同 过 滤 


queryParams .clear (); 


queryParams .put ("index", "listing vs user"); 
queryParams.put ("type", "listing"); 


queryParams .put 
queryParams .put 
queryParams .put (" 
queryParams .put (" 


"query", users); 

"fields", new String[] {" "purchased, users"}); 

from", O)s; // 从 第 1 条 结果 记录 开始 

"size", 11); // 返回 前 10 条 结果 记录 (为 了 排除 输入 的 商品 自己 ， 
// 取 11 个 结果 ) 

queryParams .Put ("mode"， "MultiMatchQuery"); // 选择 基础 查询 模式 


// 获取 排名 靠 前 的 商品 
jnDocs = mapper.readValue (ese.query (queryParams), JsonNode.class) 
.get ("hits") .get ("hits"); 
iter = jnDocs.iterator () 7 
while (iter.hasNext()) { 
JsonNode jnDoc = iter.next() 
// 由 于 搜索 引擎 中 包含 输入 商 品 本 身 ， 排除 它 自己 。 也 可 以 修改 ElasticSearchEngineBasic 
// 的 实现 ， 使 用 filter 来 排除 
Long listingIdRecom = jnDoc.get(" source") .get ("listing id") .asLong(); 
if (listingIdRecom = listingId) continue; 





listingIds.add (listingIdRecom); 
System.out .Println( 
String.format ("\t%s", jnDoc.get(" source") .get ("listing title") . 
asText () ) 加 加 
) 7 
} 


} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 
return listingIds; 

} 


// 返回 推荐 商品 的 列表 


return listingIds; 





运行 测试 代码 : 





public static void main (String[] args) throws Exception { 
// TODO Auto-generated method stub 


// Elasticsearch 服 务 器 的 设置 ， 可 以 根据 你 的 需要 进行 设置 

Map<String, Object> serverParams = new HashMap<>(); 
serverParams.put ("server", new byte[]{ (byte)192, (byte)168,1,48}); 
SerVerParams .Put ("port", 9300); 

serverParams.put ("cluster", “ECommerce"); 


ElasticsearchItemBasedCF eicf = new ElasticsearchIitemBasedCF (serverParams); 


while (true) { 
BufferedReader strin=new BufferedReader (new InputStreamReader 
(System.in)); 
System.out .print ("请 输入 商品 ID: "); 
String content = strin.readLine(); 


if ("exit" .equalsIgnoreCase (Content) ) break; 
eicf.recommend (Long.parseLong (content)); 


} 


eicf.cleanup (); 








你 将 获得 类 似 于 图 10-20 所 示 的 推荐 效果 。 











POST Y 


Authorization 


form-data 


http://localhosc9200/listing_vs_userlisting/_ 


Headers (1) Body @ Pre-request Script Tests 


x-www-form-urlencoded ”二 raw binary ”JSON (application/json) 


"query": { 
och 下 


"purchased_users"” : 4{ 

"query"”: "21 373 420 674 800 1119 1233 1240 1284 1315 1698 1741 
1758 1820 1827 1984 2319 2336 2396 2451 3096 3274 3354 3533 
3963 4794 4884 5272 5335 5670 6728 6846 7867 7232 7431 7766 
7983 8610 8854 9229 9272 9312 9405 954@ 9561 9763 10009 10068 
10129 10714 12313 12743 13217 13250 14362 14523 14728 14760 
14810 14916 15106 15328 15342 15361 15404 15469 15590 16534 
16683 16819 16916 17015 17158 17555 17570 17890 18249 18331 
18476 18502 18536 18623 18766 18774 18792 19130 19131 19431 
19488 19701 19743 19745 20009 20009 20185 20197 20499 20696 
20910 21083 21184 21220 21319 21679 22005 22059 22144 22201 
2243@ 2245@ 22522 22646 22839 23246 23258 23594 23994 24012 
24119 24213 2424@ 24759 25104 25115 25226 25339 25452 25909 
26174 26387 26473 26675 27358 27501 27745 27939 27965 28003 
28147 28336 28369 28464 28491 29039 29149 29497 29796 29994 
30114 30248 30482 30699 30759 31298 31651 31722 31918 31934 
31960 32049 32274 32521 32558 33175 33292 33406 33521 33960 
34218 34218 34491 34774 34840 34846 34966 35685 35182 35819 
35820 35831 36127 36326 36410 36413 36489 36579 36708 36798 
37162 37163 37342 37507 38334 38507 38741 38858 38900 39011 
39233 39387 39475 39645 39746 39861 40250 40658 40693 40768 
40812 40857 40917 40977 41017 41602 41687 41711 41729 41746 
41802 41804 41885 42733 42969 43028 43379 43591 43713 43807 
43855 44053 44065 44151 44206 44396 44435 44755 44970 45237 
45617 45671 45814 46208 46231 46338 46419 46434 46551 47437 
47454 47684 47956 48024 48387 48711 48925 49056 49689 49689 
49795 49898 50000"， 

"minimum_should_match” : "3%" 


"categories" Se 
"terms” : { "field"” : "category_name” } 


1 


Cookies 


Pretty Raw 


Headers (3) Tests Status: 200 OK Time: 42 ms 


Preview JSON Vv 书 Q 


II II YIUOY WIIIY 了 OOC TOJOF 01 OIL JJ TIOIY 了 TIUOI FFYOFT 


49795 49898 50000" 


”index": "listing_vs_user", 
EL 
Ad: "AVpaZzQerYmib16sYLAjK", 
”score": 43.448925, 
"_source"”: { 
"listing_id": "14654", 
"listing_title": "hanbo 汉 波 原味 香 脆 谈 48g-- 酥脆 可 口 旅游 休闲 
佳品 " 


» 

"category_id": "10", 

"category_name": "对 类 "， 

"purchased_users": "838 1267 1320 2234 2272 2273 2534 2597 2790 3096 
3332 3352 4016 4125 4463 4725 4786 4832 5259 5335 5417 5584 5670 
5764 6456 6992 7234 7966 8571 8608 8610 8873 9264 9424 9483 9528 
9725 9921 10214 10282 10561 10701 10987 11106 11325 11475 11533 
11547 11602 11635 11901 11999 12535 12585 12789 12857 12908 13074 
13096 13148 13215 13414 13596 13828 13838 13874 14070 14398 14799 
15002 15291 15478 15841 15897 16115 16131 16223 16310 16319 16362 
16437 3 16679 16905 16953 17060 17751 17762 17848 18270 18521 





图 10-19 ”使 用 购买 用 户 信息 作为 查询 条 件 ， 构 建 基于 物品 的 协同 过 滤 


完整 的 代码 请 参见 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Recommendation/RecommendationImplementation 








使 用 搜索 引擎 ， 我 们 还 可 以 非常 方便 地 结合 基于 物品 内 容 的 推荐 和 基于 物品 协同 过 滤 的 推荐 。 主 要 思想 是 修改 查询 条 件 : 











{ 
"query™": 1{ 
“bool™ 二 东 

"should" : { 

si 

ng i 和 
"放生 四 季 长 白山 a 薄 公 英 茶 茶叶 婆婆 丁 50 克 "， 
mm _shoula match" : 
} 


Ps 
"should" : { 
WE 
"Purchased users" 和 
"query™ : "1 141 559 911 987 1370 1436 1650 1728 1891 1946 2019 2139 2405 2725 2750 2868 3106 3694 3715 3756 3767 3769 3823 4016 4789 4821 5022 5082 551C 
"minimum should match™ : "3%" 
下 
， 
} 


"aggs™ : { 
"categories" : { 
"terms" : { "field" : "category name" } 





<terminated> ElasticsearchltemBasedCF [Java Application] /Library/Java/JavaVirtualMachines/jdk1.8.0_112.jdk/Contents/Hd 
ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging 0 
请 输入 商品 ID: 1 
给 定 的 商品 是 : 雀巢 脆 脆 锥 威 化 巧克力 巧克力 味 夹心 20g 24 盒 
基于 物品 的 协同 过 滤 - 推 荐 商品 是 : 
雀巢 脆 脆 狗 威 化 巧克力 巧克力 味 夹心 20g 24 盒 
兰亭 云 水 明 前 野生 龙井 茶叶 西湖 龙井 龙井 茶 小 包 79 
福 临门 金典 东北 米 5kg 和 袋 
澄 粹 阳 油 湖 大 闸 蟹 精美 礼盒 iii 型 套装 公 螃蟹 5.0-5.5 两 
老 爸 陡 了 零食 kirkland 柯 可 赣 混合 坚 果 仁 干果 1.13kg 
koh-kae 大 哥 烧烤 味 花生 豆 230g 泰国 进口 
福 临门 东北 优质 大 米 5kg+380g 袋 
1 aver 莱 薇 尔 壹 力 黑 防 脱发 洗 发 水 256ml 洗 发 露 掉 
古 陵 山 马 铃 薯 酥 香 脆 669 山西 晋城 食品 双 层 休闲 零食 
果蔬 惠 鲜 越南 红 肉 火龙 果 17 斤 
五 谷 道场 红烧 牛肉 面 105g 桶 
请 输入 商品 ID: 2 
给 定 的 商品 是 : 奥 利 奥 原 味 夹心 饼干 390g 袋 
基于 物品 的 协同 过 滤 - 推 荐 商品 是 : 
奥 利 奥 原 味 夹心 饼干 390g 袋 
hanbo 汉 波 原 味 香 脆 机 48g-- 酥脆 可 口 旅游 休闲 佳品 
hp 惠普 pavilion 14-n029tx 14.0 英 寸 笔记 本 黑色 ii5-4200u 4g gt740m 2g 独 显 
menam river 湄 南河 泰国 乌 汶 茉莉 香 米 10kg 泰国 进口 
怡 宝 饮用 纯净 水 1.5551 瓶 
swisson 蕴 特 优 能 柔 亮 调 理 露 750m1 
福 临门 金 典 东北 米 5kg 和 袋 
zte 中 兴 u968 3g 智能 手机 td-scdma gsm 双 卡 双 待 5.5 寸 屏 原 厂 未 拆 封 


液 防 脱 生发 黑 发 专业 洗 护 
饼干 


发 
办 公 





图 10-20 ”使 用 Elasticsearch 的 Java 客 户 端 ， 实 现 基 于 物品 的 协同 过 滤 


测试 效果 满意 后 ， 再 参照 ElasticsearchltemBasedCF 类 ， 修 改 Elasticsearch Java 客 户 端 相 关 的 代码 即 可 。 








(2) 基于 用 户 的 协同 过 滤 






































通过 图 10-5 和 图 10-6 的 比较 ， 你 将 发 现 基于 用 户 的 协同 过 滤 和 基于 物品 的 相 比 ， 其 最 大 的 不 同 之 处 就 在 于 发 现 相似 用 户 这 一 个 步骤 。 所 以 希望 使 用 搜索 引擎 来 实现 这 个 模型 ， 我 们 还 需要 构建 一 个 以 
户 为 单位 文档 的 索引 。 向 端点 http:Wimac2015: 9200/user_vs listing POST 如 下 内 容 : 




































































{ 
"mappings" : { 
nuser" : { 
"dynamic" : true, 
"properties" : { 
"user id" : { 
"type"” : "long" 


1 
"Purchased listing": { 
type": "text” 
} 
} 
E 
} 
} 



































其 中 ，purchased listing 字 段 用 于 索引 并 存储 用 户 曾 经 购买 过 的 所 有 商品 列表 。 然 后 在 RecommendationImplementation 项 目 中 ， 进 入 SearchEngine.SearchEnginelmplementation.Elasticsearch 


























包 , 编写 新 的 ProcessForUserPurchase 类 。 它 的 主要 目的 是 通过 user-purchases.txt 原 始 数 据 ， 生 成 Elasticsearch 所 需 的 索引 源 文件 : 








public void process (String purchaseFileName, String outputFileName) { 


PrintWriter pw = null; 
String jsonLinel = "{ \"index\" : 
type\" : \"user\™ } ]} 
// 加 载 用 户 购买 的 记录 
try { 
// 保存 输出 的 文件 


Pw = new PrintWriter (new FileWriter (outputFileName)); 


{ \" ingex\" : 


BufferedReader br = 
String strLine = br.readLine(); // 跳 过 header 行 
while ((strLine = br.readLine()) != null) { 
String[] tokens = strLine.split(™\t"); 
if (tokens.length < 2) continue; 


Long userId = 
String listingIds = 


Long.parseLong (tokens[0]); 
tokens [1]; 
String jsonLine2 = String.format ("{ \"user id" : \"%d\", 
liwting\" SAN 
userId, 
listingIds); 


// 将 JSON 对 象 写 入 输出 文件 
Pw.Println (jsonLinel) 7 
pw.println (jsonLine2) 7 


} 


br.close(); 
pw.close(); 


} catch (Exception e) { 
// TODO: handle ee 
e.PrintStackTrace () 

} finally { 2 最 后 的 扫尾 工作 
if (pw != null) pw.close(); 


\"user vs listing\", AN" 


new BufferedReader (new FileReader (purchaseFileName)); 


\"purchased_ 





你 将 看 到 类 似 如 下 的 格式 : 














{ "indexnm 时 nde "user VS_ listing", " type”" : "user" } } 
{ "user jd" ; "purchased _ Tisting" 

{ "index" "_ index" "user vs listing", " type" :; "user" } } 
{ "user id™ ; "2", "purchased _ Tisting" 

{ mindexn : { " index" "user vs listing", " type” : "user" 

{ "user id" "3", "purchased Tisting" 

hn 


: "25494 7806 27344 25692 654 6606 21197 25939 14315 10699 5924 28421 11934 19055 6613 12578 8419 25641 135 9527 23953 21823 http://www.k 
"6220 21699 21857 19733 6747 19548 7943 6502 20608 21415 13098 25259 10471 18730 28068 8893 25800 26760 5878 9971 21234 http://www.hzcc 


: "9267 23652 8994 26407 4715 5357 756 14766 6296 18403 25577 26755 19452 11268 5154 10693 8806 19360 11377 4212 23663 26179 http://www.r 


ttp: //www. hzcourse. com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/.. 





完整 的 文件 位 于 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/Recommendation/userpurchases-for-elasticsearch.txt.zip 








仍然 采 








Elasticsearch 的 _bulk 端 点 ， 进 行 批量 的 索引 : 





[huangsean@iMac2015: /Users/huangsean]curl -s -XPOST iMac2015:9200/_bulk --data-binary "@/Users/huangsean/Coding/data/BigDataArchitectureAndAlgorithm/userpurchases-for-elasticse 





索引 完毕 后 ,访问 如 下 端口 


http://iMac2015: 9200/user vs listing/user/_search 








访问 该 链接 后 ， 





你 就 可 以 看 到 类 似 于 图 10-21 所 示 的 搜索 结果 ， 对 于 给 








定 的 











与 基于 物品 的 协同 过 滤 相 仿 ， 我 们 需要 设计 Elasticsearch 的 查询 。 不 过 ， 之 前 在 讲述 基于 物品 的 协同 过 滤 时 ， 我 们 将 问题 简化 了 一 些 。 这 




















1) 在 user_ vs listing 索 引 中 ， 根 据 purchased listing 字 段 ， 发 现 相似 的 





户 ， 他 /她 曾经 购买 过 的 商品 列表 已 经 写 入 索引 了 。 











这 里 将 展示 基于 











户 协 同 过 滤 的 所 有 步骤 。 





户 。 例 如 ， 向 http:WiMac2015: 9200/user vs listing/user_search 发 送 类 似 下 面 的 查询 : 








"match" : { 
"purchased listing" : { 
"query™ 


"minimum should match™" : "5%" 


: "9262 23652 8994 26407 4715 5357 756 14766 6296 18403 25577 26755 19452 11268 5154 10693 8806 19360 11377 4212 23663 26179 23409 852 13835 249 20816 25 

















2) 假设 第 1 步 中 ， 我 们 获取 了 前 5 个 最 近邻 的 
于 物品 的 协同 过 滤 类 似 ， 向 http:WiMac2015: 9200/listing_vs_user/listing/_search 发 送 类 似 下 

















回 





户 ， 他 们 的 ID 分 别 是 43784、49648、78、41141 和 38484。 那 么 


的 查询 : 





， 在 listing_vs_user 索 引 中 ， 可 根据 purchased_user 字 段 ， 发 现 相 似 商 品 。 这 ; 





和 之 前 基 


"took": 3, 
"timed_out": false, 
"_shards": { 
tobal”: 二 
"successful": 5, 
"failed": 0 
}, 
shiter: 4 
"total": 50000, 
"max_score": 1.0, 
hts": 
{ 
"_index": "user_vs_listing", 
"type": "user", 
"_id": "AVpfiqlX8XwgpCDsgTns", 
OP” M8; 
"_source": { 
US 人 3” 
"purchased_listing": "9262 23652 8994 26407 4715 5357 756 
14766 6296 18403 25577 26755 19452 11268 5154 10693 8886 19360 11377 
4212 23663 26179 23409 852 13835 249 20816 25643 20285 18583 14344 6463 
13012 770 10345 7382 18642 2377 13120 23033 11132 14222 12709 28316 4634 
8242 10030 2947 9979 27803 3997 604 15173 7658 9556 15396 10306 12774 
19810 27249 11425 14932 10878 14467 17791 76 14380 24997 13462 26572 
14747 25527 14692 18904 18057 4559 24686 7850 21959 10795 25068 20004 
20199 4850 5052 18416 8129 24226 13529 4601 27042 15998 213 10578 16823 
21635 1210 22411 10326 15006 4831 13520 16208 5168 7061 25857 17406 6450 
9093 25736 20299 25618 2240 25048 21131 6952 7164 24655 27421 20006 2563 
13034 27788 11875 10840 8332 25231 14943 12509 2649 28344 22849 " 
} 


}， 


"_index": "user_vs_listing", 
"type": "user", 
"_id": "AVpfiqlXBXwgpCDsgTn6", 
"_score”: 1.0, 
"_source": { 
SEO ss "Sy . 
"purchased_listing": "17347 19428 10671 28490 19091 3238 23276 
25715 25832 19881 15758 1615 26990 21702 17364 8701 16723 2042 18101 
15675 26818 26130 16906 5887 8642 3015 19866 25680 21402 14995 15295 
17228 925 28481 6198 21296 15412 12671 9037 9054 18720 11429 21551 15787 
25421 5365 12966 7254 25118 23681 9957 17791 16965 23181 3537 9114 19360 
19054 18589 " 


"_index": "user_vs_listing", 
”VD PUNE 
4 二 LL D 





图 10-21 用 户 购买 的 商品 列表 写 入 了 user_vs_listing 索 引 





{ 
"query": { 
mateh™ 3 
"purchased users" : { 
"query" : "43784 49648 78 41141 38484", 
"minimum should match" : "40%"™ 
’ 
| 


}， 
agga" : { 
"categories" ; { 

erms" : { "field" : "category name" } 
} 











这 里 由 于 近邻 比较 少 ， 所 以 可 以 适当 放大 minimum_should_match 的 设置 。 在 此 基础 上 ， 我 们 可 以 利用 Elasticsearch 的 客户 端 打造 实时 推荐 模块 ， 主 要 步骤 具体 如 下 。 









































1) 在 user_ vs listing 用 户 索引 中 ， 根 据 给 定 的 用 户 ID， 搜 索 并 获取 该 用 户 的 purchased listing 字 段 。 



































2) 根据 获取 的 purchased listing 字 段 内 容 ， 构 建 针对 purchased listing 字 段 的 查询 ， 并 在 user_vs listing 用 户 索引 中 进行 搜索 。 






































3) 返回 排名 靠 前 的 用 户 搜索 结果 ， 将 其 认定 为 近邻 。 




















4) 使 用 发 现 的 近邻 ， 在 listing_vs_user 索 引 中 构建 针对 purchased_users 字 段 的 查询 ， 并 进行 搜索 。 














5) 返回 排名 靠 前 的 商品 搜索 结果 ， 作 为 推荐 内 容 。 


据 此 ， 我们 撰写 ElasticsearchltemBasedCF 类 的 示例 代码 ， 其 中 的 核心 部 分 如 下 : 





// 通过 给 定 的 用 户 ID 和 基于 用 户 的 协同 过 滤 ， 进 行 推荐 
public List<Long> recommend (Long userId) { 


List<Long> listingIds = new ArrayList<>(); 
StringBuffer users = new StringBuffer () 7 


// 根据 给 定 用 户 的 购买 记录 ， 查 找 最 近邻 的 用 户 
try { 
Map<String, Object> queryParams = new HashMap<>(); 


// 根据 用 户 ID， 查 询 该 用 户 购买 过 哪些 商品 
queryParams.put ("index", "user vs listing"); 
queryParams .put ("type", "user"); 


queryParams .put ("query", userId); 


( 
queryParams .put ("fields", new String[] {"user iqd"}); 
queryParams .put ("from", 0); // 从 第 1 条 结果 记录 开始 
queryParams .put ("size", 1); 
queryParams .put ("mode", "MultiMatchQuery"); // 选择 基础 查询 模式 


JsonNode jnDocs = mapper.readValue (ese.query (queryParams), JsonNode.class) 
.get ("hits") .get ("hits"); 
Iterator<JsonNode> iter = jnDocs.iterator () 7 
String purchasedListing = ""; 
if (iter.hasNext()) { 
JsonNode jnDoc = iter.next (); 
purchasedListing = jnDoc.get ("_source") .get ("purchased listing") .asText (); 
System.out .Println( Et 
String.format (" 该 用 户 购买 过 的 商品 是 : %shttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/OEBPS/Text/...", purchasedIl 
substring (0, 50)) > 
); 


// 根据 购买 过 的 商品 ， 查 找 最 近邻 的 用 户 


queryParams.clear (); 


queryParams .put ("index", "user vs listing"); 
queryParams .Put ("type", "user"); 


queryParams .put ("query", purchasedListing); 
queryParams .put ("fields", new String[] {"purchased listing"}); 
queryParams .put ("from", 0); // 从 第 1 条 结果 记录 开始 
queryParams.put ("size", 11); // 返回 前 10 条 结果 记录 (为 了 排除 输入 的 用 户 自己 ， 
// 取 11 个 结果 ) 
queryParams .put ("mode", "MultiMatchQuery"); // 选择 基础 查询 模式 
jnDocs = mapper.readValue (ese.query (queryParams), JsonNode.class) 
.get ("hits") .get ("hits"); 
iter = jnDocs.iterator () 7 
while (iter.hasNext()) { 
JsonNode jnDoc = iter.next(); 
Long similarUserId = jnDoc.get(" source") .get ("user id") .asLong(); 
if (similarUserId == userId) continue; 加 





users.append(similarUserId) .append (" "); 


} 

System.out .Println( 
String.format (" 该 用 户 的 最 近邻 是 : %s"，users.toString () ) 
); 


} catch (Exception e) { 
// TODO: handle exception 
e.printstackTrace (); 


// 根据 最 近邻 的 用 户 ID， 查 找 推荐 商品 
try { 
Map<String, Object> queryParams = new HashMap<>(); 


queryParams .put ("index", "listing vs user"); 
queryParams.put ("type", "listing"); 


queryParams.put ("query", users.toSstring()); 

queryParams .Put ("fields", new String[] {"purchased users"} 
queryParams .put ( 
( 
( 








"from", 0); // 从 第 1 条 结果 记 从 
queryParams.put ("size", 10); // 返回 前 10 条 结果 记录 


queryParams .put ("mode", "MultiMatchQuery"); // 选择 基础 查询 模式 
// 获取 排名 靠 前 的 商品 
JsonNode jnDocs = mapper.readValue (ese.query (queryParams), JsonNode.class) 
.get ("hits") .get ("hits"); 
Iterator<JsonNode> iter = jnDocs.iterator(); 
while (iter.hasNext()) { 
JsonNode jnDoc = iter.next (); 
Long listingIdRecom = jnDoc.get(" source") .get ("listing id") .asLong(); 
listingIds.add (listingIdRecom); 
System.out .Println( 
String.format ("\t%s", jnDoc.get ("_source") .get ("listing _ title") . 
asText () ) 
) 7 





} 


} catch (IOException e) { 
// TODO Auto-generated catch block 
e.printstackTrace (); 
return listingIds; 


} 
// 返回 推荐 商品 的 列表 


return listingIds; 








你 将 获得 类 似 于 图 10-22 所 示 的 推荐 效果 。 











完整 的 代码 ， 请 参见 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/Recommen-dation/RecommendationImplementation 





有 了 这 些 经 验 ， 我 们 还 可 以 将 之 前 简化 的 基于 物品 的 协同 过 滤 还 原 为 三 步 ， 感 兴趣 的 读者 可 以 自己 尝试 一 下 其 效果 。 




















1) 在 user vs listing 索 引 中 ， 根 据 用 户 1D 字 段 ， 可 发 现 该 用 户 所 购买 的 所 有 商品 。 考 虑 到 后 续 步骤 的 性 能 问题 ， 这 里 可 以 只 挑选 最 经 常 购买 的 若干 件 商品 。 


























2) 在 listing_vs_user 索 引 中 ， 根 据 第 1 步 的 商品 列表 ， 查 找 它 们 的 purchased_users 字 段 ， 并 将 这 些 purchased_users 字 段 的 内 容 进行 聚合 。 同 样 ， 考 虑 到 性 能 可 以 只 选取 最 常见 的 若干 位 购买 者 。 


3) 根据 聚合 的 purchased_users， 对 listing_vs_user 再 次 进行 搜索 。 




















同样 ， 类 似 基于 物品 的 协同 过 滤 ， 你 还 可 以 结合 基于 用 户 内 容 和 基于 用 户 协同 过 滤 两 种 推荐 方式 。 


























"感谢 小 明 哥 ， 真 没 想 到 推荐 系统 竟然 也 可 以 使 用 搜索 引擎 来 实现 !“ 
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Markers 国 Properties 几 Servers 蜡 Data Source Explorer [9 Snippets ER Problems | 国 console % | Ses 


ElasticsearchUserBasedCF [Java Application] /Library/Java/JavaVirtual Machines/jdk1.8.0_112.jdk/Contents/Home/bin/java 
ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging q 
请 输入 用 户 ID: 3 
该 用 户 购买 过 的 商品 是 : 9262 23652 8994 26407 4715 5357 756 14766 6296 184... 
该 用 户 的 最 近邻 是 : 43784 49648 78 47884 12708 34005 22499 41141 38484 4619 

添 隆 行 天 龙 行 豪华 礼券 公 蟹 4 只 4.5-4.8 两 只 母 蟹 4 只 3.0-3.4 两 只 行业 协会 

杭 梅 茶叶 花草 茶 礼盒 菊花 茶 头 采 杭 白菊 特级 桐乡 胎 菊 王 80g 铅 x2 

一 粒 鲜 大 米 10 斤 4 袋 

华 志 硕 diy 兼容 机 i3 3240 4g 内 存 500g 硬盘 gt630 2g 独 显 单 主机 台式 电脑 整 机 

sony 索尼 fl5n18sc 15.5 英 寸 超 极 本 电脑 触 控 变形 i15 4200u 4g 16g 固态 750g 2g win8 

盈 成 茶 籽 橄榄 清香 调和 油 1.81 非 转基因 调和 油 清 香 型 

优 特 Laciate 全 脂 牛奶 11 3 盒 部 分 脱脂 牛奶 11 3 盒 整 箱 6 盒 家 庭 装 波兰 进口 牛奶 

福 临门 东北 优质 大 米 5kg+3809 袋 

黄 飞 红 huangfeihong 麻辣 花生 休闲 零食 坚果 炒货 110g 袋 麻辣 脆 舌尖 上 中 国 2 


嘉 果 火龙 果 奇异 果 双 拼 1.5kg 
请 输入 用 户 ID: 28 
该 用 户 购买 过 的 商品 是 : 22284 26502 22817 6022 11759 26994 27218 22398 532. . . 
该 用 户 的 最 近邻 是 : 40927 16053 44596 7534 29257 35637 26012 11138 45508 15153 
水 锦 洋 银 鲤鱼 中 段 切片 450g 片 宝宝 最 爱 进口 银 鳄鱼 国企 品质 好 海鲜 


物理 低温 冷 榨 亚麻 籽 油 胡 麻油 提高 dha 补充 亚麻 酸 营养 更 均衡 500m1L 2 瓶 
弹 面 馆 牛 肉 乌 冬 面 125g 砚 
产 阳澄湖 大 闻 蟹 3 公 7 母 10 只 装 螃蟹 现货 礼盒 公 4.9-5.5 两 母 3.7-4.0 两 
花草 茶叶 精品 胖 大 海 胖 大 海 花茶 130 克 鳅 
旬 进口 海归 芒 座 嘴 芒 5 斤 芒果 新 鲜 水 果 

Lenovo 联想 新 品 z50-70a i5-4200u 4g 1t gt840m 2g 独 显 

motorola 摩托 罗拉 mt680 移动 3g 安 卓 系统 行货 全 国 联 保 黑色 

费列罗 人 金 莎 喜糖 2 粒 装 肖 金 蓓 喜糖 贺 纸 盒 结婚 喜庆 高 档 礼盒 

请 输入 用 户 ID: 





图 10-22 ”使 用 Elasticsearch 的 Java 客 户 端 ， 实 现 基于 用 户 的 协同 过 小 

















“是 的 ， 你 可 以 参照 第 4 章 我 们 讨论 的 适配器 设计 模式 ， 打 造 统一 的 推荐 接口 ， 然 后 底层 实现 采用 不 同 的 设计 方案 。 其 实 ， 搜 索引 擎 、 推 荐 系统 ， 甚 至 是 你 将 来 可 能 碰 到 的 在 线 广告 系统 ， 都 是 建立 于 现 
代 信 息 检 索 的 理论 之 上 的 。 从 本 质 上 来 说 它们 有 很 多 相近 之 处 ， 所 以 相互 借鉴 也 不 足 为 奇 。 随 着 实际 项 目的 不 断 深入 ， 你 会 发 现 越 来 越 多 这 种 触 类 旁 通 的 案例 。“ 








四 如 果 在 一 个 矩阵 中 ， 大 多 数 的 元 素 为 0， 则 称 此 天 阵 为 稀 足 矩阵 。 
[中 本文 用 的 Mahout 版 本 是 0.8。 
[3] 也 有 人 实现 了 基于 HDFS 的 DataModel。 


第 四 篇 ”获取 数据 ， 跟 踪 效 果 


“第 11 章 方案 设计 和 技术 选 型 : 行为 跟踪 


确定 方案 后 ， 大 宝 团队 的 执行 力 可 以 称 得 上 是 一 流 的 ， 第 一 版 的 推荐 系统 很 快 就 上 线 了 ， 形 成 了 分 布 在 首页 、 用 户 中 心 、 商 品 详情 页 、 购 物 车 结算 等 页 面 的 多 个 栏 位 。 由 于 连续 攻克 了 搜索 、 推 荐 两 大 
核心 模块 ， 管 理 层 还 特意 为 开发 团队 颁发 了 公司 最 高 级 别 的 荣誉 : “总 裁 特 别 奖 ”。 一 时 间 ， 大 宝 的 技术 部 门 风 光 无 限 。 这 天 ， 小 丽 找到 了 大 宝 ， 大 宝 很 是 得 意 ， 自 以 为 小 丽 是 来 表示 感激 的 。 没 想到 ， 小 
丽 此 行 的 真正 目的 不 在 于 此 。 


“大 宝 ， 感 谢 你 帮助 我 们 解决 了 用 户 最 大 的 两 个 痛 点 。” 

“哪里 哪里 ， 全 都 是 为 公司 、 为 顾客 应 该 做 的 。” 

“我 今天 来 找 你 ， 其 实 是 有 件 更 为 重要 的 事情 。” 

“ 哦 ? 请 讲 。” 大 宝 心里 不 禁 犯 喃 吐 ， 最 大 的 两 个 痛 点 都 解决 了 ， 还 能 有 什么 更 重要 的 问题 呢 ? 


“ 随 着 系统 和 业务 的 日 趋 完善 ， 我 们 站 点 的 访问 量 也 越 来 越 大 。 公 司 的 高 层 和 业务 都 很 关心 的 是 ， 这 些 用 户 访问 了 我 们 的 站 点 之 后 ， 都 是 如 何 表现 的 ? 他 们 有 怎样 的 消费 习惯 ? 具体 一 些 就 是 ， 有 多 少 
人 看 过 我 们 的 促销 页 ? 多 少 人 使 用 了 搜索 或 推荐 功能 ? 搜索 和 推荐 的 转化 率 又 是 如 何 呢 ? 举 个 例子 ， 我 们 很 想 知道 从 搜索 结果 页 有 多 大 概率 的 用 户 会 点 击 进入 商品 详情 页 ， 或 者 是 直接 添加 购物 车 ? 现在 后 
台 的 数据 基本 上 都 是 基于 购买 交易 进行 的 ， 并 没有 这 么 详尽 的 数据 用 于 分 析 。” 


“让 我 想 想 …… ”大 宝 的 脑子 立刻 开始 飞速 运转 。 之 前 技术 部 的 精力 都 放 在 如 何 设计 并 实现 满足 用 户 需求 的 生产 系统 上 ， 例 如 商家 运营 时 使 用 的 后 台 工 具 ， 顾 客 购买 时 使 用 的 搜索 和 推荐 系统 。 但 是 对 
于 用 户 行为 的 反馈 并 没有 建立 良好 的 跟踪 、 处 理 ， 甚 至 是 分 析 工具 。 他 开始 意识 到 这 是 一 块 明显 的 短 板 ， 尽 管 经 验 不 足 ， 可 是 为 了 公司 能 够 更 有 效 地 运营 ， 技 术 部 必须 要 迎接 这 个 新 的 挑战 。“ 好 的 ， 小 
丽 ， 需 求 我 已 经 收 到 ， 我 们 会 尽快 设计 解决 方案 。” 


“ 太 棒 了 ， 期 待 你 们 技术 部 的 又 一 次 大 作 ! ” 


第 11 章 方案 设计 和 技术 选 型 : 行为 跟踪 


大 宝 深 知 虽然 业务 需求 很 明确 ， 但 是 由 于 团队 的 资历 尚 浅 ， 技 术 实现 上 仍然 会 遭遇 不 少 难点 。 于 是 他 再 次 找到 了 小 明 ， 和 他 沟通 了 业务 方 的 需求 。 小 明 略 加 思索 ,说道 : “对 于 这 个 问题 ， 你 们 公司 的 
大 方向 是 对 的 。 当 用 户 在 网 上 冲浪 时 ， 他 们 都 会 留 下 一 些 痕迹 。 这 是 用 户 行为 的 一 种 证 据 ， 我 们 通常 使 用 一 些 数据 ， 例 如 访问 日 志 来 存储 这 样 的 信息 。 举 个 例子 ， 当 你 打开 搜狐 新 闻 的 首页 ,或 者 在 百度 上 
输入 一 些 查询 关键 字 ， 或 者 在 优酷 上 观看 视频 剪辑 时 ， 都 将 留 下 痕迹 。 这 些 网 站 都 会 将 用 户 的 这 些 行为 存储 到 相应 的 数据 记录 中 ， 并 加 以 合理 地 利用 。 








































































































“ 哦 ， 这 些 数据 应 该 怎样 利用 ?“ 























“至 少 会 在 两 个 大 的 方面 产生 巨大 的 价值 。 第 一 方面 ， 就 是 你 们 业务 部 门 提出 的 ， 如 何 理解 用 户 在 贵 公司 网 站 上 的 行为 ” 现 有 系统 是 否 有 效 ” 新 的 系统 发 布 之 后 是 否 有 更 佳 的 表现 ”第 二 方面 ， 一 般 会 
被 大 家 所 忽略 ， 但 价值 是 非常 巨大 的 ， 那 就 是 通过 用 户 行为 的 反馈 数据 ， 直 接 改进 搜索 和 推荐 的 系统 。 你 还 记得 之 前 几 章 我 们 讨论 过 的 内 容 吧 ， 如 何 提升 搜索 排序 的 相关 性 和 个 性 化 ， 如 何 进行 基于 协同 过 
滤 的 推荐 ， 这 些 都 需要 记录 用 户 的 行为 。” 










































































“ 没 错 没 错 ， 之 前 我 们 都 是 读 取 Tomcat 这 种 Web 服 务 器 上 的 访问 日 志 (access log) 来 还 原 用 户 访问 路 径 的 。” 























“这 是 一 种 可 行 的 方案 ， 不 过 可 能 还 会 漏 掉 一 些 细节 性 的 数据 ， 这 个 稍 后 我 们 再 做 介绍 。 总 体 来 说 ， 我 觉得 你 们 尚未 充分 挖掘 顾客 在 贵 公司 网 站 上 的 行为 。 如 果 能 做 一 套 强 有 力 的 行为 日 志 收集 和 分 析 
系统 ， 那 么 既 能 评估 现 有 的 功能 模块 、 证 明 你 们 辛勤 工作 的 价值 ， 又 能 为 搜索 和 推荐 等 系统 的 人 工 智能 和 机 器 学 习 准 备 更 多 素材 ， 何 乐 而 不 为 ?“ 








“小 明 哥 ， 你 说 的 话 非常 有 道理 ， 可 是 我 们 应 该 怎样 入 手 呢 ?“ 











“大 体 上 说 ， 你 们 可 以 有 两 种 选择 ， 第 三 方 解 决 方案 与 自行 设计 的 解决 方案 。 第 一 种 ， 你 可 以 使 用 第 三 方 的 资源 ， 例 如 谷歌 分 析 (Google Analytics) 。 这 种 情况 下 ， 你 只 需要 专注 于 前 端 跟踪 代码 的 
嵌入 即 可 。 如 果 你 选择 自己 设计 整套 系统 ， 那 么 事情 会 变 得 更 复杂 一 些 ， 当 然 你 也 可 以 从 中 学 习 到 更 多 的 技术 ， 包 括 如 何 生成 在 线 行为 的 数据 ， 如 何 将 其 保存 在 分 布 式 系统 中 ， 以 及 如 何 分 析 海 量 的 数 
据 ”。 


























“ 听 上 去 内 容 很 丰富 啊 ， 我 已 经 迫不及待 地 想 深入 学 习 了 。” 











“为 了 便于 理解 ， 让 我 们 从 最 基本 的 网 站 架构 分 析 开始 吧 !“ 


11.1 ”基本 概念 


11.1.1 ”网 站 的 核心 框架 














首先 ， 我 们 来 看 一 看 在 线 网 站 最 为 基本 的 、 一 般 的 架构 。 在 图 11-1 中 ， 从 左上 角 到 右 侧 ， 你 可 以 看 到 从 Web 浏 览 器 到 前 端 Web 服 务 器 ， 到 后 端 集群 ， 再 到 持久 性 数据 库 的 数据 流 。 同 时 ， 用 户 将 生成 一 
些 数据 ， 如 访问 行为 的 日 志和 交易 事务 的 日 志 。 这 里 ， 我 们 将 重点 介绍 通常 由 前 端 JavaScript 生 成 的 访问 日 志 。 原 因 是 与 交易 等 事务 日 志 相 比 ， 访 问 日 志 通 常 具有 更 庞大 的 数据 量 和 更 为 丰富 的 信息 。 另 
外 ， 由 于 访问 日 志 可 能 会 经 历 更 多 的 模块 ， 它 的 存储 和 处 理 也 更 为 困难 。 
















































































web 浏览 器 | 下 


访问 日 志 
(Access Logs) 


前 端 Web 服务 器 集群 





Web 服务 器 mn 






a Dil [a 米 | 
Web 服务 器 1 生成 访问 a I 
成 访 日 志 的 区 2) 后 靖 
日 志 氛 JavaScript 服务 器 1 
avaScrip 交易 


图 11-1 互联 网 站 点 的 基本 框架 
































虽然 这 个 任务 具有 挑战 性 ， 但 我 们 仍然 可 以 将 复杂 的 问题 分 解 成 几 个 较 小 的 子 模块 。 主 要 模块 包括 数据 模式 的 设计 ， 数 据 的 收集 、 存 储 和 分 析 。 由 于 大 多 数 用 户 行为 相关 的 数据 是 在 前 端 生 成 的 ， 我 们 


在 前 端 Web 服 务 器 所 呈现 的 网 页 中 嵌入 JavasScript 代 码 。 这 样 ， 一 旦 用 户 访问 相应 的 网 页 ， 他 们 的 行为 就 将 被 捕获 并 发 送 到 相应 的 Web 服 务 器 。 然 而 ， 前 端 Web 服 务 器 的 主要 职责 并 不 是 存储 和 处 理 这 样 的 
行为 数据 。 为 了 减少 这 类 服务 器 的 系统 负载 ， 我 们 需要 将 这 些 日 志 数 据 传输 到 其 他 的 地 方 进行 存储 ， 如 一 些 文件 服务 器 。 文 件 服务 器 可 以 提供 更 好 的 容量 来 持久 地 保存 所 有 类 型 的 数据 ， 并 且 可 以 进行 高 强 
度 的 数据 分 析 。 


此 时 ， 你 可 能 会 提出 一 个 关于 访问 日 志 的 问题 : “几乎 每 种 类 型 的 Web 服 务 器 都 会 保留 访问 日 志 ， 那 么 为 什么 我 们 还 需要 JavaScript 来 做 同样 的 事情 呢 ? ”这 是 一 个 很 好 的 问题 。 确 实 ， 一 些 经 典 的 

























































































Web 服 务 器 例如 Apache Tomcat 已 经 能 够 收集 很 多 对 于 页 面 的 访问 日 志 了 。 但 是 ， 在 某 些 应 用 场景 下 ， 这 些 数 据 未 必 能 供 我 们 所 需 的 全 部 字段 ， 例 如 用 户 访问 网 站 所 用 的 设备 和 操作 系统 。 此 外 ， 既 有 的 数 
据 可 能 也 不 够 详细 。 例 如 ， 你 想 知道 有 多 少 人 向 下 滚动 到 某 一 页 的 底部 ， 或 者 用 户 最 常 点 击 的 位 置 在 哪里 ， 等 等 。 普 通 的 访问 日 志 无 法 提供 这 类 信息 。 换 言 之 ， 由 于 需要 考虑 更 全 的 维度 、 更 细 的 粒度 ， 我 
们 应 该 设计 一 套 前 端 采 集 的 代码 ， 用 于 收集 用 户 对 于 某 个 栏 位 、 坑 位 、 甚 至 是 按钮 的 点 击 等 信息 。 


Tl2 


前 面 提 到 过 普通 的 Web 服 务 器 日 志 可 能 不 够 详尽 ， 这 也 是 为 什么 我 们 通常 将 用 户 行为 数据 分 为 两 类 一 一 页 面 级 别 和 事件 级 别 一 一 的 原因 。 页 面 级 数据 表示 日 志 记录 用 户 打 开 了 一 个 新 的 网 页 。 下 面 的 
7 开打 


11-2 使 




































































行为 数据 的 类 型 



















































































一 个 亚马逊 全 球 Amazon.com 的 主页 作为 示例 。 上 半 部 分 的 箭头 表示 用 户 单 击 广告 横幅 ， 并 打开 一 个 描述 Fire 平 板 电脑 详细 信息 的 新 页 面 。 下 半 部 分 的 箭头 表示 用 户 单 击 亚马逊 echo 的 大 医 





























开 一 个 描述 echo 产 品 细节 的 新 页 面 。 通 常 ， 大 多 数 Web 服 务 器 都 会 存储 这 种 类 型 的 访问 日 志 。 


除了 页 面 级 别 的 行为 数据 ， 我 们 还 需要 关注 事件 级 别 的 数据 。 这 里 的 事件 是 指 在 某 个 网 页 上 的 用 户 输入 。 大 多 数 事件 是 鼠标 点 击 (或 在 移动 设备 上 的 触摸 ) ， 其 余 的 则 主要 是 键盘 输入 。 下 面 的 














1. 点 击 Fire 平板 电脑 
的 广告 横幅 








amazon 


BLACK FRIDAY 


2. 点 击 Echo 产品 
的 大 图 


11-2 页 面 级 别 的 行为 数据 










































































的 丢失 。 
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11-3 
使 用 名 宿 网 站 Airbnb 的 某 张 网 页 作为 例子 。 当 用 户 浏览 公寓 列表 时 ， 他 /她 可 以 查看 和 点 击 地 图 。 这 种 点 击 是 用 户 行为 的 一 种 典型 代表 。 大 多 数 前 端 Web 服 务 器 并 不 会 捕获 事件 级 别 的 数据 。 虽 然 点 击 可 能 
会 触发 后 端 服务 器 中 的 某 些 调用 ， 但 是 我 们 很 难 整合 从 前 端 到 后 端的 所 有 数据 流 。 这 就 是 为 什么 需要 一 些 Javascript 代 码 来 直接 记录 这 样 的 行为 。 这 些 代 码 将 减少 数据 集成 的 负担 ， 并 有 效 地 防止 行为 数据 


从 Brisbane City Gueensland, Australia 


$1574 / month 
Private room . 1 bed . 2 guests 
实 夷 三 寅 页 40reviews 


11.1.3 “行为 数据 的 模式 


pr 


hv 


$979 / month 
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图 11-3 事件 级 别 的 行为 数据 


在 数据 类 型 之 后 ,我 们 将 考虑 行为 数据 的 具体 模式 (schema) 。 这 个 话题 始终 与 你 的 业务 相关 : 什么 样 的 行为 对 你 的 业务 最 有 价值 ? 如 果 你 心中 没有 一 个 明确 的 答案 ， 那 么 模式 将 是 很 难 定义 的 。 当 

















然 ， 这 里 可 以 提供 一 些 基本 的 字段 ， 例 如 时 间 戳 、 
录 客 户 端的 时 间 。 或 者 如 果 有 可 能 ， 











同时 记录 客户 端 和 服务 器 端的 时 间 。 为 什 
惯 往往 更 具有 实际 的 意义 。 随 着 行为 跟踪 和 分 析 系 统 的 不 断 构 建 ， 你 将 会 发 现 许 多 应 











件 ID、 页 











户 ID 或 账户 ID、 页 面 和 对 























本 地 时 间 的 场景 。 





加 载 时 间 、 点 击发 生 的 位 置 、AB 测 试 的 分 组 ID、 设 备 的 操作 系统 ， 等 等 。 需 要 注意 的 一 点 就 是 时 间 戳 。 我 们 建议 记 
上 么 客户 端的 时 间 如 此 重要 ”假设 你 正在 经 营 国际 性 的 业务 ， 并 为 不 同 国家 的 客户 提供 服务 。 本 地 时 区 对 于 你 了 解 客户 行为 和 习 


除了 上 述 基 本 字段 之 外 ， 还 有 其 他 硬件 平台 相关 的 领域 。 例 如 ， 在 个 人 电脑 上 ， 我 们 可 以 记录 页 面 的 URL、 引 用 页 面 (当前 页 面 的 前 一 页 面 ) 的 URL、 屏 幕 分 辨 率 、Web 浏 览 器 的 类 型 和 IP 地 址 等 信 





息 。 在 智能 手机 等 移动 设备 上 ， 我 们 更 关心 设备 的 类 型 、 互 联网 的 连接 方式 (这 里 指 Wi-Fi 或 蜂窝 网 络 ) ，APP 应 用 版 本 和 GPS 位 置 。 在 大 多 数 情况 下 ， 这 些 信 息 对 移动 设备 的 跟踪 和 分 析 更 有 价值 。 
它 能 更 好 地 描述 你 的 


动 设备 是 一 个 更 加 个 性 化 的 东西 ， 


一 个 常见 的 问题 是 : 行为 数据 模式 的 设计 是 否 存在 最 佳 实践 ”在 我 看 来 ， 上 述 的 基本 字段 可 以 适 


























为 移 

















于 大 多 数 情况 。 但 是 ， 如 果 你 的 业务 确实 有 非常 特殊 的 需求 ， 有 非常 特别 的 商业 模型 ， 或 者 你 的 

















有 非常 特殊 的 行为 模式 ， 那 么 你 需要 仔细 考虑 这 个 课题 ， 来 决定 应 该 包括 什么 样 的 数据 。 考 虑 到 O20 电 商 的 业务 需求 ， 常 见 的 个 人 电脑 端 字段 可 以 参考 表 11-1 进 行 设计 。 


mr 


字 上段 


表 11-1 PC 端 需 要 采集 的 常见 字段 


含义 


referrer url 
request url 
forward url 
user 1d 
client_time 
page area 1id 
action id 
resolution 
click position 


response_time 
content id 


abtest 


当前 页 的 来 源 页 (上 一 页 ) URL 

当前 界面 的 URL 

即将 跳 转 页 面 的 URL 

网 站 会 员 ID ， 可 以 通过 用 户 登 录 时 植 人 Cookie 来 实现 

客户 端 时 间 截 

页 面 区 域 ID ， 标 记 点 击 所 在 页 面 的 栏 位 所 属 区 域 ， 如 首页 的 个 性 化 栏 位 

用 户 行为 的 标识 ID ， 例 如 加 入 购物 车 按钮 为 add_cart， 点 击 商品 详情 为 view_detail 
用 户 显示 屏 的 分 辨 率 

点 击发 生 时 所 处 像素 点 的 X、Y 坐标 

页 面 的 啊 应 时 间 


页 的 商品 ID ， 或 者 是 下 单 页 的 订单 ID 
用 于 AB 测试 的 流量 分 组 ID ， 例 如 a 表示 第 1 组 ，b 表示 第 2 组 ，c 表示 第 3 组 














目前 移动 互联 网 也 是 相当 火爆 ， 其 流量 和 交易 占 比 越 来 越 高 ， 





因此 这 里 也 要 考虑 常见 的 移动 APP 端 字段 设计 ， 如 表 11-2 所 示 。 








表 11-2 移动 APP 端 需要 采集 的 常见 字段 





字 段 
user_ device 1d 
session ld 
user 1d 
client time 


terminal os 


Ver 
channel 
ip 
network 
gpS 
action ld 
page ld 


page_area id 


字 段 
content 1d 
abtest 





虽然 有 些 相 类 似 的 字段 ， 但 是 APP 还 有 些 特殊 的 收集 需求 ， 例 如 移动 设备 的 情况 、 访 问 的 网 络 环境 、 


含义 
用 户 登 录 设 备 (例如 手机 、 平 板 等 ) ID 
唯一 标识 一 次 启动 的 ID 
网 站 会 员 ID 
客户 端 时间 截 
操作 系统 ，IOS 还 是 Android 
APP 的 版 本 号 
通过 何 种 下 载 渠 道 获取 的 APP 
访问 时 的 IP 地 址 
联网 方式 ，2G、3G、4G 还 是 Wi-Fi 
用 户 允 许 的 情况 下 ， 所 记录 的 地 理 经 纬度 
用 户 行为 的 标识 ID ， 例 如 加 入 购物 车 按钮 为 add_cart， 点 击 商品 详情 为 view_detail 
当前 页 面 类 型 的 ID ， 例 如 搜 词 页 为 search、 类 目 页 为 category、 促 销 页 为 promotion 、 详 情 页 
为 detail 
页 面 栏 位 的 ID ， 例 如 搜索 结果 为 result、 推 荐 栏 位 为 recommend 
( 续 ) 
含 义 
表示 业务 内 容 的 ID ， 例 如 类 目 页 的 分 类 ID 、 搜 词 页 的 关键 词 、 促 销 页 的 促销 活动 ID 、 详 情 
页 的 商品 ID ， 或 者 是 下 单 页 的 订单 ID 
用 于 AB 测试 的 流量 分 组 ID， 例 如 a 表示 第 1 组 、b 表示 第 2 组 、 而 c 表示 第 3 组 














户 的 地 理 位 置 ， 等 等 ， 这 些 信息 对 于 精准 化 的 分 析 同 样 重要 。 当 然 ， 上 述 只 是 最 基础 的 设计 ， 可 

















能 还 需要 根据 实际 需求 制定 更 为 详尽 的 字段 列表 。 有 了 数据 的 定义 ， 就 可 以 着 手 进行 记录 。 下 面 是 一 条 APP 终 端 记 录 的 例子 ， 包 含 了 15 个 信息 字段 。 





原始 记录 : 
iphone6s 3434df878g dabao.yang 2017/01/18/20/28 IOS10.0 2 
AppleStore 10.202.130.128 WIFI NULL view detail Category result 


32207 





解析 后 的 结果 如 表 11-3 所 示 。 


表 11-3 ”移动 APP 端 采集 样 例 的 解析 


user device id 设备 是 目前 最 新 的 iPhone 6s 
session id 唯一 标识 的 session ID 

user id 杨 大 宝 本 人 自己 的 网 站 账号 
client_ time 行为 发 生 的 时 间 

terminal_os 操作 系统 为 9.0 版 本 的 IOS 
ver APP 客户 端的 发 行 版 本 
channel Apple Store 获得 的 最 新 APP 
ip 行为 发 生 时 网 络 的 IP 
network 网 络 连 接 方 式 

gps 大 宝 没有 打开 GPS 定位 
action id 查看 详情 的 行为 

page area id 类 目 页 中 的 搜索 结果 

abtest 进行 AB 测试 ， 属 于 第 2 组 流量 


11.1.4 ”设计 理念 








在 了 解 了 这 个 任务 的 几 个 子 模块 ， 以 及 








著名 的 解决 方案 ， 例 如 谷歌 分 析 (Google Analytics) 、 百 度 统计 、Piwik 等 。 第 三 方 解 决 方案 的 优点 是 显而易见 的 ， 它 们 是 开 箱 即 用 型 的 ， 你 所 需要 花费 的 软件 














了 大 多 数 问题 ， 所 以 使 用 它们 的 时 候 只 需要 考虑 数据 的 模 
外 ， 用 户 隐私 和 可 靠 性 也 是 问题 。 简 而 言 之 ， 你 无 法 很 好 



































们 将 提供 更 多 的 相关 知识 ， 来 帮助 你 设计 可 扩展 的 











户 行 











值得 注意 的 是 ， 虽 然 可 以 通过 不 同 的 方式 来 实现 用 户 
统 最 大 的 优势 在 于 可 用 性 和 可 靠 性 。 即 使 一 个 系统 出 现 意 
多 的 资源 用 于 系统 的 开发 。 而 且 ， 更 多 的 跟踪 代码 也 可 能 















































无 论 如 何 ， 利 
诸多 细节 。 








第 三 方 和 自行 设计 的 解决 方案 都 是 值 





11.2 ”使 用 谷歌 分 析 








户 行为 数据 的 类 型 之 后 ， 下 面 我 们 来 看 看 如 何 实现 它们 。 你 可 以 在 第 三 方 解 决 方案 的 基础 之 上 构建 整个 系统 ， 或 者 完全 由 自己 打造 各 个 模块 。 第 三 方 包括 一 些 





























式 及 生成 即 可 。 然 而 ， 当 你 的 网 站 流量 达到 一 定 的 规模 之 后 ， 它 们 可 能 就 不 再 提供 免费 的 服务 了 ， 这 时 再 
地 控制 自己 的 预算 和 数据 资产 。 从 另 一 个 角度 来 看 ， 自 行 设计 的 解决 方案 具有 更 高 的 灵活 性 。 你 可 以 根 








为 跟踪 系统 。 





发 量 很 少 ， 
切换 到 其 他 的 
时 需要 来 限 路 任何 类 型 的 
时 的 方式 监控 数据 ， 而 无 须 担心 任何 第 三 方 窥视 属于 你 自己 的 数据 ， 你 还 可 以 构建 性 能 更 强 ， 容 错 性 更 佳 的 系统 ， 以 实现 更 高 的 可 靠 性 。 当 然 ， 所 有 这 些 都 会 花费 更 高 的 开发 成 本 。 不 过 不 








由 











于 第 三 方 解 决 方案 为 你 解决 
解决 方案 成 本 就 会 很 高 。 此 














户 行为 ， 并 以 实 
担心 ， 本 章 我 


















































行为 系统 ， 但 它们 并 非 完 全 相互 排斥 。 如 果 你 有 足够 的 资源 ， 则 可 以 使 





多 个 第 三 方 跟踪 系统 ， 甚 至 同时 使 





外 而 无 法 继续 运作 ， 因 为 其 他 系统 仍然 可 以 继续 ， 因 此 不 会 造成 数据 的 丢失 。 此 外 ， 你 可 以 做 交叉 验证 来 检查 数 拉 














会 增加 网 页 加 载 的 时 间 ， 从 而 影响 了 用 户 的 体验 。 














得 研究 的 。 下 面 ， 我 们 分 别 来 深入 理解 这 两 种 理念 。 























在 数据 类 型 和 模式 设计 之 后 ， 本 节 将 介绍 一 个 用 于 
Bg， 用 于 报告 网 站 流量 。 至 少 到 目前 为 止 它 还 是 免费 的 。 


情 : https://www.google.com/analytics/。 




















中 











如 果 你 决定 使 
辐 11-4 的 屏幕 快照 所 示 。 其 中 一 件 很 重要 的 事情 是 UA ID 
和 事件 级 别 的 数据 。 因 此 ， 我 们 需要 为 这 两 种 类 型 分 别 准 
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第 三 方 和 自 定义 的 系统 。 多 个 跟踪 系 
居 的 正确 性 。 当 然 ， 你 必须 投入 更 


首先 你 将 学 习 一 个 流行 的 第 三 方 跟踪 系统 : 谷歌 分 析 。 然 后 ， 我 们 将 描述 自行 设计 系统 的 中 的 


行为 跟踪 的 流行 的 第 三 方 解 决 方案 : 谷歌 分 析 (Google Analytics) 。 谷 歌 在 2005 年 11 月 推出 了 这 项 服务 ， 提 供 了 一 系列 常用 的 用 户 行为 跟踪 功 














谷歌 分 析 还 提供 了 另外 两 个 版 本 : 面向 企业 

















的 基于 订阅 的 谷歌 分 析 360 和 面向 移动 应 











的 使 用 数据 采集 SDK。 你 可 以 访问 这 个 网 址 了 解 更 多 的 详 











， 你 应 该 正确 地 使 
备 对 应 的 谷歌 分 析 代码 ， 并 插入 网 页 的 相应 位 置 。 因 为 这 是 一 个 开 箱 即 


















































时 间 之 后 ， 你 就 可 以 打开 谷歌 分 析 的 账户 ， 查 看 描述 网 站 


MyTest 
| All Web Site Data ~ 


























户 行为 的 实时 和 每 日 报告 。 具 体 细 节 将 在 实战 部 分 阐述 。 图 11-5 列 出 了 某 个 样 例 网 站 其 报告 的 若干 示意 图 。 




















它 ， 请 访问 此 处 的 链接 并 注册 一 个 新 账户 : https://www.google.com/analytics/analytics/#?modal_active=none。 获 取 账 户 后 ， 你 可 以 在 某 个 账户 设置 的 页 


面 上 找到 跟踪 代码 ， 如 

















自己 的 UA ID。 和 否则 ， 网 站 所 生成 的 数据 将 无 法 得 到 准确 地 统计 。 正 如 之 前 所 介绍 的 ， 有 两 大 类 型 的 数据 需要 收集 : 页 面 级 别 
的 解决 方案 ， 上 述 内 容 就 是 你 所 需要 完成 的 全 部 步骤 。 这 些 代码 运行 一 段 
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Send test traffic | (?) 


Website tracking 
This is the Universal Analytics tracking code for this property. 


To get all the benefits of Universal Analytics for this property, copy and paste this code into every web page that you want to track. 





<script> 
(function(i,s,0,g,ra,m){i[ GoogleAnalyticsObject]=r:ilr]=ildlfunctionO{ 
(ld.q=ild.qlll).push(arguments)},ilr}.l=1*new Date(;a=s.createElement(0), 
m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m) 
D(window,document;script,https://www.google-analytics.com/analytics.js''ga’); 


ey 在 这 里 找到 你 自己 的 
谷歌 分 析 账 户 所 对 应 


的 UAID 


</script> 








PHP Implementation oPTIONAL 


。 Use the code above to create a file named "analyticstracking.php’, and include the file on each PHP template page. 
。 Add the following line to each template page immediately after the opening <body> tag: 





<?php include_once('analyticstracking.php") ?> 





Dynamic Content Implementation ornoNaL 
Use a common include or template to paste the code above instead of manually adding it to every page. 


Google Tag Manager 


Our free tool Google Tag Manager can help you add tags to your site if you have many analytics and tracking tags. Consider using Google Tag Manager if: 


es。 You use multiple analytics and ad performance tracking tools that require site tags. 
。 Adding tags to your website slows down your ability to run marketing campaigns. 


Learn how to get started with Google Tag Manager. 


图 11-4 在 自己 的 账户 中 找到 对 应 的 ID， 用 于 部 署 跟踪 代码 
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11-5 谷歌 分 析 的 报告 示意 
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Avg_Time on Page Bounce Rate 


00:02:03 24.39% 
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© RealTime 


Viewing: Active Users Events [Lest 30 mn) 





Active Users with Events 1 (100% of total) 
Event Category 

1. Main Catalog 

2 | MainCatalog 

3. Main Catalog 








© 2016 Google | Analytics Home | Terms of Service | Privacy Policy | Send Feedback 











11-5 ”〈( 续 ) 





为 了 让 读者 更 好 地 理解 完整 的 数据 流 ， 图 








11-6 绘 制 了 这 种 解决 方案 的 基本 架构 。 在 右 侧 ， 你 需要 定义 数据 模式 并 在 网 页 上 部 署 GA (谷歌 分 析 ) 代码 。 如 果 用 户 访问 嵌 有 此 类 代码 的 网 页 ， 那 么 加 载 该 网 
页 之 后 ， 鼠 标点 击 和 键盘 输入 的 日 志 将 被 发 送 到 谷歌 的 服务 器 中 ， 然 后 谷歌 将 这 些 内 容 记录 到 其 数据 库 中 。 稍 后 ， 谷 歌 将 利 


用 此 类 日 志 生成 报告 。 换 名 话说， 谷歌 分 析 会 为 你 实现 数据 的 收集 、 存 储 和 分 
析 。 你 需要 考虑 的 只 是 数据 模式 的 设计 和 跟踪 代码 的 部 署 。 





谷歌 分 析 
(GA) 


数据 模式 设计 Web 服务 器 1 


用 户 的 访问 。 GA 代码 







统计 分 析 


二 一 第 三 方 的 解决 方案 于 ee 你 的 站 点 -一 -一 > 


司 11-6 ”为 你 的 站 点 使 用 谷歌 分 析 

















第 三 方 解 决 方案 绝对 可 以 节省 你 的 工作 量 。 但 是 ， 有 的 时 候 你 并 不 希望 其 他 人 可 以 访问 自己 的 数据 。 如 果 隐 私 和 安全 对 你 的 业务 更 为 重要 ， 那 么 自行 设计 的 解决 方案 就 是 更 好 的 选择 。 





11.3 ”自行 设计 之 Flume、HDFS 和 Hive 的 整合 














如 果 自 己 来 设计 行为 数据 的 跟踪 系统 ， 那 么 你 应 该 考虑 许多 其 他 的 事情 ， 例 如 收集 、 存 储 和 分 析 数 据 。 常 见 的 收集 方法 包括 SCP，Apache Flume、Logstash、Scribe， 等 等 。 至 于 存储 ， 当 然 我 们 可 
以 使 用 像 本 地 文件 系统 这 样 最 简单 的 方式 。 对 于 大 规模 系统 而 言 ， 还 可 以 使 用 分 布 式 存储 系统 ， 例 如 Apache Hadoop 的 HDFS、 经 典 的 SQL 数据 库 ， 近 些 年 开始 流行 的 NoSQL 数 据 库 ， 甚 至 是 Kafka 这 样 的 
消息 队列 。 如 果 要 分 析 收 集 的 数据 ， 可 以 使 用 SQL， 支 持 类 SQL 的 Hive 或 Storm 这 样 的 流 式 计算 框架 。 下 面 ， 我 们 针对 各 个 核心 技术 点 进行 讲解 。 





















































11.3.1 ”数据 的 收集 一 一 Flume 简 介 








到 现在 为 止 ， 你 的 脑海 里 可 能 会 产生 一 个 问题 : “为 什么 我 们 需要 一 个 名 为 数据 收集 的 步骤 ? 数据 就 在 那里 ， 为 什么 还 需要 收集 它们 ? ”又 是 一 个 好 问题 。 第 一 个 原因 是 关于 数据 的 分 布 。 实 际 上 ， 对 
于 大 规模 的 网 站 而 言 ， 我 们 将 使 用 分 布 式 的 系统 来 服务 大 量 的 用 户 ， 这 意味 着 行为 数据 将 分 散在 不 同 的 服务 器 上 。 假 设 只 有 少量 的 网 络 服务 器 ， 那 么 可 以 使 用 SCP 命 令 将 日 志文 件 复制 到 另 一 台 机 器 上 。 此 
外 ， 还 可 以 配置 Crontab， 让 机 器 每 日 进行 常规 的 备份 动作 。 但 是 ， 如 果 服务 器 的 数量 达到 了 一 定 的 规模 ， 那 么 相应 的 维护 工作 量 就 会 变 得 非常 庞大 ， 这 对 后 续 的 处 理 和 数据 分 析 来 说 是 非常 棘手 的 。 另 一 
个 原因 是 关于 数据 的 备份 ， 有 时 Web 服 务 器 真 的 很 繁忙 ， 很 有 可 能 会 崩溃 。 在 硬件 故障 的 情况 下 ， 我 们 甚至 会 丢失 访问 日 志 。 所 以 从 多 个 地 方 收集 日 志 数 据 并 将 它们 存储 在 其 他 地 方 ， 还 能 达到 备份 的 目 

















































































































在 本 章节 的 实战 中 ， 我 们 将 使 用 开源 的 Apache Flume (http://flume.apache.org/) 。 这 是 一 个 分 布 式 、 可 靠 和 高 可 用 的 海量 数据 收集 系统 ， 目 前 最 新 的 版 本 是 1.7.0。 它 同时 采用 推送 和 拉 取 这 两 种 
采集 模式 ， 其 能 力 受 到 了 业界 的 广泛 认可 。 它 支持 在 系统 中 定制 各 类 数据 发 送 方 ， 同 时 还 支持 对 数据 进行 简单 处 理 ， 然 后 写 到 各 种 可 定制 的 数据 接受 方 。Flume 最 早 属于 知名 的 Cloudera 公 司 ， 初 始 的 发 行 
版 本 被 统称 为 Fume-OG (Original Generation) ， 目 前 的 版 本 号 是 Flume 0.9X 这 种 形式 。 随 着 Flume 功 能 的 扩展 ，Flume-OG 代 码 工 程 腔 肿 、 核 心 模块 设计 不 合理 、 核 心 配置 不 标准 等 缺点 纷纷 暴露 出 
来 ， 尤 其 是 在 Flume-OG 的 最 后 一 个 发 行 版 本 0.94.0 中 ， 日 志 传 输 不 稳定 的 现象 尤为 突出 。 为 了 解决 这 些 问题 ，2011 年 Cloudera 完 成 了 Flume 中 里 程 碑 式 的 改动 ， 核 心 模块 、 核 心 配置 及 代码 架构 都 得 到 了 
重 构 ， 改 善后 的 新 版 本 统称 为 FIlume-NG (Next Generation) ， 版 本 号 都 是 Flume 1.X 的 形式 。 与 此 同时 ，Flume 也 被 纳入 Apache 社 区 ，Cloudera Flume 正 式 改名 为 Apache Flume。 本 书后 面 提 到 的 
Flume 如 无 特殊 说 明 均 指 Flume-NG。 




































































Flume 的 核心 模块 有 三 个 ， 具 体 如 下 。 











“ 源头 《Source) : 负责 接收 数据 的 模块 ， 它 定义 了 数据 的 源头 ， 从 源头 收集 数据 ， 传 递 给 通道 (Channel) 。 源 头 还 可 以 用 于 接收 其 他 Flume 代 理 中 沉淀 器 传输 过 来 的 数据 。 
: 沉淀 器 (Sink) : 批量 地 从 通道 (Channel) 读 取 并 移 除数 据 ， 并 将 所 读 取 的 内 容 存 储 到 指定 的 位 置 。 
“ 通道 (Channel) : 作为 一 个 管道 或 队列 ， 连 接 源头 和 沉淀 器 。 


通过 这 几 个 模块 ， 可 形成 如 下 的 重要 概念 。 





“代理 (Agent) : Flume 运 行 在 服务 器 上 的 程序 ， 是 最 小 的 运行 单位 。 每 台 机 器 只 会 运行 一 个 代理 ， 其 中 可 能 包含 多 个 源头 《Source) 和 沉淀 器 (Sink) 。 


“ 事件 (Event) : Flume 的 数据 流 由 事件 贯穿 始终 ， 是 应 用 逻辑 上 的 基本 处 理 单元 ， 例 如 当 Flume 处 理 网 站 日 志 记 录 的 收集 时 ， 事 件 可 以 是 一 条 日 志 记 录 ， 它 携带 了 日 志 数 据 和 头 信 息 。 代 理 中 的 源头 会 
生成 这 些 事件 ， 进 行 特 定 的 格式 化 ， 然 后 将 事件 推 入 若干 通道 中 。 你 可 以 将 通道 看 作 一 个 缓冲 区 ， 它 将 保存 事件 直到 沉淀 器 处 理 完 该 事件 。 沉 淀 器 负责 持久 化 日 志 ， 或 者 将 事件 推 向 另 一 个 源头 ， 这 也 表明 
Flume 的 数据 流传 输 是 可 以 谍 套 的 ， 可 以 经 过 多 级 的 传递 和 预 处 理 。 





整个 Flume 的 收集 流程 如 图 11-7 所 示 。 




















在 图 11-7 中 ， 我 们 可 以 将 源头 想象 成 一 个 水 龙头 ,沉淀 器 是 一 个 水 桶 ， 而 通道 就 是 水 管 。 水 管 的 两 头 分 别 接 上 水 龙头 和 水 桶 ， 当 水 龙头 打开 时 ， 水 就 通过 水 管 源源 不 断 地 流入 水 桶 。 






































Flume 的 一 大 优势 在 于 它 是 集群 化 管理 ， 当 需要 采集 的 应 用 过 多 的 时 候 ， 单 个 Flume 的 代理 可 能 就 会 无 法 处 理 了 ， 需 要 更 多 的 代理 来 组 成 集群 ， 图 11-8 显 示 了 集群 处 理 的 大 体 架构 ， 其 中 从 应 用 程序 端 
到 集群 就 需要 做 流量 的 负载 均衡 。 类 似 的， 这 里 可 以 认为 是 水 龙头 有 太 多 的 水 需要 放出 ， 一 根 水 管 远 远 不 够 ， 因 此 需要 连接 多 根 水 管用 于 传送 。 
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图 11-7 ”Flume 工 作 的 基本 流程 


负载 均衡 





图 11-8 ”使 用 Flume 集 群 处 理 更 多 的 数据 流 








前 文 也 提 到 过 ，Flume 的 数据 流 是 可 以 通过 多 级 吝 套 进行 传输 的 ， 图 11-9 就 体现 了 这 样 的 架构 。 如 此 架构 的 优势 在 于 ， 可 以 将 不 同 的 处 理 逻 辑 进行 分 层 ， 以 便于 开发 、 测 试 和 管理 。 同 时 ， 也 能 更 好 地 
控制 数据 流 缓冲 的 节奏 。 同 样 ， 延 续 前 面 的 比喻 ， 我 们 可 以 认为 是 通过 管道 连接 器 ， 将 多 段 水 管 连 接 起 来 了 。 每 个 连接 器 还 可 以 加 入 不 同 的 水 处 理 模块 ， 比 如 ， 让 第 1 段 和 第 2 段 水 管 连接 器 进行 活性 炭 吸 附 
杂质 的 处 理 ， 而 第 2 段 和 第 3 段 的 水 管 连接 器 进行 紫外 线 杀 菌 的 处 理 ， 等 等 。 
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图 11-9 ”层次 型 的 Flume 集 群 架构 








从 上 述 的 模块 和 流程 中 可 以 看 出 ， 源 头 、 沉 淀 器 和 通道 的 实现 至 关 重 要 。 好 消息 是 ， 对 于 这 三 大 模块 ，Flume 已 经 为 我 们 实现 了 很 多 基本 的 功能 ， 下 面 就 来 快速 浏览 一 下 。 

















Flume 的 源头 主要 包括 如 下 几 种 。 


“ Spooling Directory 源 头 : 在 一 些 场 景 中 ， 应 用 数据 产生 后 会 存 入 本 地 的 文件 中 ,文件 中 的 一 行 或 若干 行 可 组 成 一 个 逻辑 单元 。 但 是 不 同 的 应 用 ， 会 导致 不 同 的 字段 定义 和 格式 ， 而 你 又 无 法 去 修改 这 些 
应 用 本 身 ， 如 何 整 合 这 些 信息 将 是 一 个 令 人 头疼 的 问题 。 这 个 时 候 Spooling Directory 源 头 就 有 了 用 武之 地 ， 它 是 非常 简单 和 常用 的 源头 ， 会 监视 指定 目录 的 变化 ， 从 这 些 目录 的 文件 中 读 取 所 需要 的 数据 ， 并 
且 进 行 必要 的 预 处 理 ， 将 不 同 数据 源 的 内 容 转 化 为 对 应 于 Flume 的 事件 ， 在 之 后 的 实践 部 分 我 们 将 主要 使 用 这 种 源头 。 不 过 ， 由 于 Spooling Directory 源 头 可 能 产生 密集 的 磁盘 I/O 读 取 操 作 ， 所 以 它 的 性 能 通常 


不 会 很 高 。 
“HTTP 源头 : 该 源头 可 以 通过 HTTP 的 POST 方式 接收 数据 。 从 客户 端的 角度 来 看 ， 它 的 表现 就 像 Web 服 务 器 一 样 ， 同 时 还 接收 Flume 的 事件 。 


. JMS 源 头 : JMS 的 全 称 是 Java 消 息 服务 (Java Message Service) ， 用 于 在 分 布 式 系统 中 发 送 消息 ， 进 行 异 步 通 信 。Flume 自 带 的 JMS 源 头 可 以 获取 来 自 Java 消 息 服务 队列 的 数据 ， 例 如 ActiveMQ 和 Kafka， 等 


“ 谋 套 ; Avro 和 Thtift 这 样 的 源头 ， 可 以 和 上 一 级 代理 的 沉淀 器 进行 对 接 ， 实 现代 理 的 多 级 谋 套 。 








Flume 封 装 的 沉淀 器 也 不 少 ,能 够 写 到 例如 HDFS、HBase、Kafka、Solr 和 Elasticsearch 等 存储 和 检索 引擎 中 。 由 于 它们 在 Flume 流 程 中 通常 都 是 最 终点 ， 因 此 这 些 类 型 一 般 被 称 为 终端 沉淀 器 。 另 外 
一 些 类 型 ， 例 如 Avro 和 Thrift 沉 淀 器 ， 将 和 之 前 介绍 的 Avro 和 Thrift 源 头 对 接 ， 用 于 将 数据 传 给 下 一 级 代理 。 





























“ HDFS 沉 淀 器 : 在 大 数据 架构 方案 中 ， 它 是 十 分 常用 的 一 种 沉淀 器 ， 可 以 将 数据 直接 写 入 Hadoop 的 分 布 式 文件 系统 (HDFS) ， 以 便于 大 规模 数据 的 存储 。 该 沉淀 器 非常 灵活 ， 可 以 根据 不 同事 件 的 报 
头 、 时 间 戳 等， 配置 不 同 的 目录 。 


" HBase 沉 淀 器 : HBase 是 基于 Hadoop 的 宽 表 系统 。 直 接 写 入 HBase 的 沉淀 器 将 使 得 查询 HDFS 中 的 数据 变 得 更 为 高 效 。 


:Kafka 沉 淀 器 : Kafka 是 由 Apache 基 金 会 开发 的 一 个 开源 流 处 理 平台 ， 采 用 Scala 和 Java 语 言 编 写 。 该 项 目 旨 在 提供 一 个 统一 的 、 高 吞吐 量 、 低 延迟 的 平台 来 处 理 实 时 数据 。 在 稍 后 的 实践 部 分 ， 你 将 看 到 
Flume 如 何 使 用 Kafka 沉 淀 器 将 数据 写 入 该 消息 系统 。 


: Morphine Solt 沉 淀 器 : Morphine 是 一 个 高 度 扩 展 的 ETL (Extraction、Transform and Load) 框架 ， 在 这 里 它 可 以 将 Flume 的 事件 加 载 到 Solr 搜 索引 擎 ， 通 过 Solr 的 索引 和 查询 功能 ， 实 现 更 为 强大 的 数据 功 


让 


.Elasticsearch 沉 淀 器 : 如 前 所 述 ，Elasticsearch 是 一 个 类 似 Solr 的 搜索 引擎 实现 ，Flume 同 样 可 以 将 数据 存储 到 其 中 ， 并 让 Elasticsearch 对 这 些 数 据 进 行 下 一 步 的 处 理 。 


“ 庶 套 : Avro 和 Thrift 这 样 的 沉淀 器 ， 可 用 于 将 数据 传 给 下 一 级 代理 。 





Flume 自 带 两 种 通道 : 














“ 内 存 通 道 : 该 通道 是 内 存 中 的 队列 ， 源 头 从 它 的 尾部 写 入 数据 ， 而 沉淀 器 则 是 从 它 的 头 部 读 取 数 据 。 由 于 都 是 内 存 操作 ， 因 此 可 以 支持 非常 高 的 乔 吐 量 。 不 过 由 于 其 是 非 持久 化 的 方式 ， 因 此 存在 丢 
失 数 据 的 风险 。 


“ 文件 通道 : 该 通道 会 将 事件 都 写 到 磁盘 中 ， 以 持久 化 的 方式 保存 。 这 样 数 据 就 不 会 因为 宕 机 或 断 电 而 丢失 ， 而 且 海 量 数据 存储 的 成 本 也 比较 低 ， 不 过 其 性 能 远 远 不 及 内 存 通道 。 综 合 来 看 ， 如 果 对 于 
数据 的 丢失 无 法 容忍， 并 且 不 在 意 数据 处 理 的 速度 ， 那 么 文件 通道 是 最 理想 的 选择 。 相 反 ， 如 果 对 系统 反应 速度 要 求 很 高 ， 可 以 允许 一 定 程度 的 数据 丢失 ， 那 么 建 义 选择 内 存 管 道 。 








总 结 一 下 ，Flume 支 持 各 类 数据 发 送 方 的 定制 ， 同 时 还 支持 对 数据 的 简单 处 理 ， 然 后 将 其 写 到 各 种 可 定制 的 数据 接受 方 。Flume 还 有 一 大 优势 在 于 它 是 集群 化 管理 ， 便 于 水 平 扩 展 ， 即 使 需要 采集 的 应 
很 多 ， 我 们 也 不 用 担心 收集 系统 无 法 承受 。 更 为 重要 的 是 ，Flume 是 开放 源 代码 的 ， 这 就 意味 着 开发 者 们 完全 可 以 自 定义 这 些 模块 的 功能 和 实现 。 















































11.3.2 ”数据 的 存储 一 一 Hadoop HDFS 回 顾 














现在 我 们 来 讨论 用 于 行为 跟踪 的 数据 存储 。 实 际 上 ， 这 个 任务 有 很 多 种 选择 。 主 要 类 型 包括 文件 系统 ， 消 息 队列 ，SQl 数 据 库 和 非 SQL 数 据 库 。 文 件 系统 通常 包括 本 地 文件 系统 ，Hadoop 分 布 式 文件 系 
统 (Hadoop Distributed File System，HDFS) 。 消 息 队列 包括 Kafka、ActiveMQ、RabbitMQ 等 。 你 可 能 已 经 非常 熟悉 SQL 数据 库 了 ， 如 MySQL、DB2 和 Oracle 等 。 近 年 来 ， 非 SQl 数据库 也 变 得 越 来 
越 流行 ， 像 HBase、MongoDB 等 。 


























从 精确 性 角度 而 言 ， 行 为 数据 不 像 银行 交易 系统 要 求 的 那么 严格 。 从 内 容 的 规范 性 来 看 ， 行 为 数据 的 格式 可 能 会 随 着 业务 需求 的 变化 而 不 断 变 化 ， 包 含 较 高 的 不 确定 性 。 另 外 ， 用 户 流量 将 来 也 会 不 断 
增长 ， 对 于 数据 规模 的 要 求 反而 是 更 高 。 综 合 这 三 点 ， 扩 展 性 良好 的 Hadoop HDFS 将 是 一 个 不 错 的 选择 ， 它 可 以 非常 方便 地 存储 海量 非 结构 化 的 数据 。 对 于 HDFS， 我 们 在 第 1 章 已 经 有 所 介绍 ， 需 要 的 读 
者 可 以 重 温 一 下 。 在 稍 后 的 实践 部 分 ， 我们 将 展示 怎样 结合 HDFS 与 Flume， 来 实现 海量 日 志 的 存储 。 



























































11.3.3 ”批量 数据 分 析 一 一 Hive 简 介 


























如 果 你 使 用 的 是 之 前 介绍 的 谷歌 分 析 系 统 ， 那 么 谷歌 将 基于 使 用 数据 为 你 生成 许多 有 价值 的 报告 。 如 果 自 己 设计 行为 跟踪 系统 ， 那 么 你 也 需要 依靠 自己 来 分 析 数 据 。 从 计算 机 处 理 的 方式 而 言 ,分析 的 
方式 可 以 分 为 两 种 主要 类 型 : 批量 处 理 和 流 式 处 理 。 批 量 处 理 模式 是 指 每 次 处 理 一 堆 的 数据 ， 如 果 可 以 接受 在 几 分 钟 甚 至 几 个 小 时 后 获得 报告 的 结果 ， 那 么 批量 处 理 的 模式 将 适合 于 你 的 应 用 。 批 量 处 理 模 
式 的 应 用 包括 运营 日 报 、 市 场 调研 、 客 户 关系 管理 ， 等 等 。 但 是 如 果 你 拥有 一 个 大 型 网 站 ， 并 且 非 常 需要 实时 性 的 报告 ， 那 么 流 式 计算 将 是 一 个 更 好 的 选择 。 流 式 计 算 将 连续 处 理 不 断 进入 的 数据 。 其 应 
包括 实时 仪表 板 、 网 络 安全 监控 ， 等 等 。 在 本 章 ， 我 将 使 用 Apache Hive 展 示 批 处 理 模式 ， 稍 后 使 用 Kafka 和 Storm 的 组 合 来 展示 流 模式 。 






























































































































































在 介绍 Hive 之 前 ， 让 我 们 快速 地 了 解 一 下 Hadoop 中 的 MapReduce。 前 文 提 到 Apache Hadoop 包 含 两 个 要 素 ， 第 一 个 是 HDFS， 第 二 个 就 是 MapReduce 计 算 。MapReduce 与 HDFS 的 联系 非常 紧 
密 ， 如 果 你 将 行为 数据 存储 到 HDFS， 那 么 就 意味 着 你 需要 进行 MapReduce 的 编程 来 处 理 HDFS 中 的 数据 。 这 可 能 会 花费 你 很 多 时 间 ， 特 别 是 对 于 经 验 不 够 丰富 的 开发 者 来 说 。 现 在 ，Hive 将 帮助 大 家 完成 
这 项 任务 。Hive (http://hive.apache.org/) 是 Hadoop 项 目 中 的 男 一 个 子 项 目 ， 它 是 建立 在 Hadoop 基 础 之 上 的 数据 仓库 工具 ， 可 以 存储 、 查 询 和 分 析 存 储 在 HDFS 中 的 大 规模 数据 ， 目 前 最 新 的 版 本 是 
2.1.1。 经 典 的 关系 型 数据 库 使 用 结构 化 查询 语言 (Structure Query Language，SQL) 来 查找 数据 。 为 了 实现 数据 的 提取 、 转 化 和 加 载 (Extraction、Transform、Load) ，Hive 也 定义 了 一 种 简单 的 类 似 
于 SQL 的 查询 语言 ， 称 为 HiveQL (Hive SQL) 。 对 于 熟悉 SQL 的 用 户 而 言 ，HiveQL 的 入 门 和 使 用 非常 方便 。Hive 会 将 SQL 语句 转换 为 MapReduce 任 务 在 后 台 运行 ， 因 此 用 户 不 必 开 发 专门 的 MapReduce 
应 用 ， 也 不 用 关心 具体 转换 的 逻辑 ， 非 常 适合 应 用 于 数据 仓库 的 统计 和 分 析 。 同 时 ，HiveQL 也 人 允许 熟悉 MapReduce 框 架 的 用 户 开 发 自 定义 的 Mapper 和 Reducer 来 处 理 内 建 模块 无 法 完成 的 复杂 工作 。 可 
是 ， 由 于 Hive 是 基于 HDFS 的 ， 它 本 身 并 不 能 很 好 地 支持 实时 性 很 强 的 需求 。 






























































































































































































































































从 架构 上 来 看 ，Hive 主 要 包括 如 下 几 个 模块 : 用 户 端 、 解 释 器 、 元 数据 存储 和 分 析 数 据 存储 。 


“用户 端 主要 包含 命令 行 (CLI) 、 客 户 端 〈Client) 和 Web 图 形 化 界面 (WebGUI) 。 最 常用 的 是 CLI[， 它 启动 的 时 候 会 同时 启动 一 个 Hive 守 护 进程 服务 ,使 用 者 可 以 交互 式 地 输入 命令 并 得 到 相应 的 
结果 输出 。Client 是 Hive 的 客户 端 ， 用 户 通过 它 连 接 到 Hive 的 服务 器 。Client 模 式 启动 的 时 候 ， 需 要 启动 Hive 服 务 器 所 在 的 节点 ， 并 进行 相应 的 配置 。WebGUI 工 具 允 许 用 户 通过 浏览 器 访问 Hive， 使 用 前 要 启 
动 HWI 组 件 (Hive Web Interface) 。 


“ 解释 器 : 主要 包含 执行 编译 器 、 优 化 器 和 执行 器 ， 它 们 可 完成 HiveQL 查 询 语句 的 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 及 计划 的 生成 。 生 成 的 查询 计划 也 会 存储 在 HDFS 中 ， 并 在 随后 通过 MapReduce 框 架 
调用 执行 。 这 步 体现 了 Hive 的 核心 思想 之 一 ， 那 就 是 尽量 简化 MapReduce 开 发 的 工作 量 ， 使 得 菜 些 操作 和 查询 的 复杂 逻辑 对 使 用 者 完全 透明 。 


“ 元 数据 存储 : Hive 中 的 元 数据 包括 表 的 名 字 、 表 的 列 、 表 分 区 、 表 数据 所 在 的 目录 、 是 否 为 外 部 表 ， 等 等 。 尽 管 Hive 采 用 NoSQL 的 方式 进行 工作 ， 但 是 它 仍 然 使 用 关系 型 数据 库存 储 元 数据 ， 这 主要 
是 考虑 到 元 数据 的 规模 较 小 ， 而 对 读 写 同步 的 要 求 很 高 。 此 外 ， 将 元 数据 的 存储 从 Hive 的 数据 服务 中 解 褐 出 来 ， 可 以 大 大 减少 执行 语义 检查 的 时 间 ， 也 能 提高 整个 系统 运行 的 健壮 性 。 常 用 的 关系 型 数据 库 
配置 是 MySQL 或 Derby 诬 入 式 数 据 库 。 


“ 分 析 数 据 存 储 : Hive 用 于 分 析 的 海量 数据 都 存储 在 HDFS 之 中 ， 支 持 不 同 的 存储 类 型 包括 纯 文本 文件 、HBase 等 文件 。 一 旦 解释 器 接受 了 HiveQL， 那 么 Hive 将 直接 读 取 HDFS 的 数据 ， 并 将 查询 逻辑 转 
化 成 为 MapReduce 计 算 来 完成 。 





哆 | 


整个 Hive 加 上 Hadoop 的 大 体 架构 如 








11-10 所 示 。 
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图 11-10 Hive 基 本 系统 架构 ， 底 层 存 储 和 计算 都 通过 Hadoop 实 现 




















Hive 中 所 有 的 数据 都 存储 在 HDFS 中 ， 并 没有 专门 的 存储 格式 ， 也 没有 为 数据 建立 索引 ， 
进行 解析 了 。 尽 管 如 此 ，Hive 的 数据 模型 仍然 包括 几 个 主要 的 概念 : 数据 库 (Database) 、 


它 可 以 非常 自由 地 组 织 表 结构 。 使 用 者 只 需要 在 创建 表 的 时 候 指定 字段 列 分 隔 符 和 记录 行 分 隔 符 ，Hive 就 可 以 
表 (Table) 、 分 区 (Partition) 和 桶 (Bucket) 。 

















“数据库: 它 的 作用 是 将 用 户 的 应 用 隔离 到 不 同 的 数据 模式 中 ，Hive 0.6.0 之 后 的 版 本 均 支 持 数 据 库 ， 其 相当 于 关系 型 数据 库 里 的 命名 空间 (Namespace) 。 


“ 表 : Hive 的 表 和 数据 库 中 的 表 在 概念 上 非常 接近 ， 在 逻辑 上 ， 其 由 描述 表格 形式 的 元 数据 和 存储 于 其 中 的 具体 数据 组 成 ， 可 以 分 为 托管 表 和 外 部 表 。 托 管 表 在 Hive 中 都 有 一 个 对 应 的 目录 ， 所 有 的 数 
据 都 存储 在 这 个 目录 中 。 而 外 部 表 的 数据 文件 可 以 存放 在 Hive 仓 库 以 外 的 分 布 式 文件 系统 上 。 表 删除 的 DROP 命 令 对 于 这 两 种 类 型 产生 的 效果 也 不 同 ， 对 托管 表 执行 DROP 命 令 的 时 候 ， 会 同时 删除 元 数据 和 
其 中 存储 的 数据 ， 而 对 外 部 表 执 行 该 命令 的 时 候 ， 则 只 能 删除 元 数据 ， 而 不 会 删除 外 部 分 布 式 系统 上 所 存储 的 数据 。 


“分区: Hive 中 的 分 区 方式 和 数据 库 中 的 分 区 方式 存在 很 大 的 差异 ， 它 的 概念 是 根据 分 区 列 对 表 中 的 数据 进行 大 致 地 划分 。 分 区 列 不 是 表 里 的 菜 个 字段 ， 而 是 一 个 独立 的 列 。 前 面 提 到 Hive 表 就 
是 通过 分 布 式 文件 系统 的 目录 来 实现 的 ， 那 么 相应 地 ， 表 的 分 区 在 Hive 存 储 上 就 体现 为 主 目录 下 的 多 个 子 目 录 ， 而 子 目 录 的 名 称 就 是 分 区 列 的 名 称 。 使 用 分 区 的 好 处 在 于 ， 查 询 菜 个 具体 分 区 列 里 的 数据 时 
不 用 进行 全 表 扫 描 ， 可 以 大 大 加 快 范围 的 查询 。 


这 里 ， 


和 分 区 都 是 在 目录 级 别 上 进行 数据 的 拆 分 ， 而 桶 则 是 对 数据 源 文件 本 身 进 行 数据 拆 分 。 使 用 桶 的 表 会 将 源 数据 文件 按照 一 定 的 规律 拆 分 成 多 个 文件 。 





















































同时 ， 我 们 也 要 注意 ，Hive 与 关系 型 的 SQL 数据 库 毕 竟 还 是 有 所 不 同 ， 应 用 场景 也 有 差异 。 下 面 就 来 简要 地 总 结 如 下 。 
查询 语言 : HiveQL 与 大 部 分 的 SQL 语法 兼容 ， 但 并 不 完全 支持 SQL 标准 。 由 于 底层 依赖 于 Hadoop 的 平台 ， 因 此 HiveQL 不 支持 更 新 操作 ， 也 不 支持 索引 和 事务 ， 子 查询 和 连接 (Join) 操作 也 很 有 限 。 


HiveQL 也 有 些 特点 是 关系 型 SQL 所 无 法 企及 的 ， 比 如 和 MapReduce 计 算 过 程 的 集成 和 多 表 查询 。 
“ 存储 方式 和 计算 模型 : Hive 和 关系 型 数据 库 相 比 ， 存 储 和 计算 的 方式 也 有 所 不 同 。Hive 使 用 的 是 Hadoop 的 HDFS， 而 关系 型 数据 库 则 是 服务 器 本 地 的 文件 系统 。Hive 使 用 的 计算 模型 是 MapReduce， 其 
充分 利用 多 机 并 行 的 原理 ， 而 关系 型 数据 库 设计 的 计算 模型 一 般 适 用 于 单机 模式 。 


: 实时 性 : 由 于 架构 在 Hadoop 之 上 ，Hive 也 继承 了 其 批 处 理 的 方式 ， 因 此 在 作业 提交 和 调度 的 时 候 需 要 大 量 的 开销 ， 并 且 不 能 在 大 规模 数据 集 上 实现 低 延迟 的 查询 ， 其 实时 性 相 较 于 关系 型 数据 库 而 言 
就 比较 差 了 。 实 时 性 的 区 别 也 导致 了 两 者 的 应 用 场景 有 很 大 的 不 同 ， 关 系 型 数据 库 大 多 是 为 了 比较 实时 查询 的 业务 而 设计 的 ， 例 如 联机 事务 处 理 (OLTP) 。 而 Hive 则 是 为 大 数据 集 的 批 处 理 作业 而 设计 的 ， 
例如 ， 网 络 日 志 分 析 、 海 量 数据 挖掘 等 。 


“ 扩展 性 、 并 行 性 和 容错 性 : 虽然 Hadoop 的 离线 处 理 特性 导致 Hive 并 不 适用 于 实时 性 要 求 很 高 的 场景 ， 但 是 Hadoop 的 分 布 式 特性 使 得 Hive 很 容 
故障 的 时 候 更 容易 恢复 。 在 这 点 上 Hive 比 关系 型 数据 库 具 有 更 为 明显 的 优势 。 


易 扩展 自己 的 存储 能 力 和 计算 能 力 ， 并 且 在 部 分 机 器 出 现 


11.3.4 Flume、HDFS 和 Hive 的 整合 方案 























综合 使 用 Apache Flume、Hadoop HDFS 和 Hive 这 些 开源 系统 ， 你 可 以 构建 一 个 用 户 行为 跟踪 系统 ， 以 批量 处 理 的 模式 来 收集 、 存 储 和 处 理 行为 数据 。 图 11-11 列 出 了 该 系统 的 整个 框架 。 在 第 一 步 
中 ，Flume 将 使 用 Spooling Directory 源 从 前 端 Web 服 务 器 获取 和 传输 访问 日 志 ， 然 后 在 第 二 步 将 数据 存储 到 Hadoop HDFS 集 群 中 ， 最 后 Hive 将 取出 这 些 数 据 ， 并 在 第 三 步 中 做 一 些 分 析 ， 例 如 获取 每 日 
的 用 户 访问 量 UV (Unique Visitor) 、 页 面 浏览 量 PV (Page View) 、 订 单 转化 率 ， 等 等 。 我 们 将 在 稍 后 的 案例 实践 中 展示 更 多 的 细节 。 
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图 11-11 通过 Flume、HDFS 和 Hive 搭 建行 为 跟踪 的 批 处 理 系 统 


11.4 自行 设计 之 Flume、Kafka 和 Storm 的 整合 


11.4.1 ”实时 性 数据 分 析 之 Kafka 简 介 

















HDFS 和 Hive 都 比较 适用 于 对 实时 性 要 求 不 高 的 批 处 理 。 假 如 有 些 数据 报表 需要 非常 及 时 地 完成 ， 那 又 该 如 何 处 理 呢 ”此 时 我 们 可 以 考虑 选择 类 似 Kafka 的 消息 机 制 ， 提 供 比 Hive 更 敏捷 的 处 理 速 度 ， 避 
免 过 度 频繁 的 批 处 理 操 作 。 不 过 ，Kafka 本 身 并 不 支持 复杂 的 计算 。 为 了 节省 你 的 工作 量 ， 你 也 需要 使 用 Apache Storm 的 框架 ， 这 种 流 式 计算 可 以 保证 在 第 一 时 间 内 获得 统计 的 结果 。 












































Apache Kafka (http://kafka.apache.org) 是 LinkedIn 公 司 设计 和 开发 的 高 吞吐 量 的 分 布 式 发 布 订阅 消息 系统 ， 它 将 帮助 你 保存 大 量 的 流 数据 ， 并 以 非 同步 的 方式 重用 这 些 数据 。 其 内 在 设计 就 是 分 
布 式 的 ， 具 有 良好 的 可 扩展 性 ,截至 本 章 写作 之 时 其 版 本 已 更 新 到 2.12。Kafka 的 创造 者 们 在 使 用 之 前 的 一 些 消息 中 间 件 时 ， 发 现 如 果 严 格 遵 循 JMS 的 规范 ， 虽 然 消息 投递 的 成 功率 非常 之 高 ， 但 是 会 增加 不 
少 额 外 的 消耗 ， 例 如 JM SS 所 需 的 沉重 消息 头 ， 以 及 维护 各 种 索引 结构 的 开销 等 。 最 终 将 导致 系统 的 性 能 很 难得 到 进一步 的 突破 ， 不 太 适 合 海量 数据 的 应 用 。 因 此 ， 他 们 并 没有 完全 按照 JMS 的 规范 来 设计 
Kafka 具 ， 而 是 对 一 些 原 有 的 定义 做 了 简化 ， 大 幅 提 升 了 处 理性 能 ， 同 时 对 传送 成 功率 也 有 一 定 的 保证 。 总 体 看 来 ，Kafka 具 有 如 下 特性 。 











































































































“ 高 性 能 存储 : 通过 特定 设计 的 磁盘 数据 结构 ， 保 证 时 间 复 杂 度 为 O (1) 的 消息 持久 化 ， 这 样 数 以 TB 的 消息 存储 也 能 够 保持 良好 的 稳定 性 能 。 此 外 ， 被 保存 的 消息 可 以 被 多 次 消费 ， 用 于 商务 智能 ETL 
和 其 他 一 些 实时 应 用 程序 。 


“天生 分 布 式 : Kafka 被 设计 为 一 个 分 布 式 系统 ， 它 利用 ZooKeeper 来 管理 多 个 代理 (Broker) ， 支 持 负载 均衡 和 副本 机 制 ， 易 于 横向 地 扩展 。ZooKeeper 旨 在 构建 可 靠 的 、 分 布 式 的 数据 结构 ， 这 里 可 将 
其 用 于 管理 和 协调 Kafka 代 理 。 当 系统 中 新 增 了 代理 ， 或 者 某 个 代理 故障 失效 时 ，ZooKeeper 服 务 会 通知 生产 者 和 消费 者 ， 让 它们 据 此 开始 与 其 他 代理 协调 工作 。 


“ 高 吞吐 量 : 由 于 存储 性 能 的 大 幅 提 升 ， 以 及 具有 良好 的 横向 扩展 性 ， 因 此 即使 是 非常 普通 的 硬件 Kafka 也 可 以 支持 每 秒 数 十 万 的 消息 流 ， 同 时 为 发 布 和 订阅 提供 惊人 的 吞吐 量 。 
“ 无 状态 代理 : 与 其 他 消息 系统 不 同 的 是 ，Kafka 代 理 是 无 状态 的 。 代 理 不 会 记录 消息 被 消费 的 状态 ， 而 是 需要 消费 者 各 自 维护 。 


“主题 (Topic) 和 分 区 (Partition) : 支持 通过 Kafka 服 务 器 和 消费 机 集群 来 分 区 消息 。 一 个 主题 可 以 认为 是 一 类 消息 ， 而 每 个 主题 可 以 分 成 多 个 分 区 。 通 过 分 区 ， 可 以 将 数据 分 散 到 多 个 服务 器 上 ， 吉 
和 免 达 到 单机 瓶颈 。 更 多 的 分 区 意味 着 可 以 容纳 更 多 的 消费 者 ， 有 效 提 升 并 发 消费 的 能 力 。 基 于 副本 方案 ， 还 能 够 对 多 个 分 区 进行 备份 和 调度 。 


“ 消费 者 分 组 (Consumer Group) : Kafka 中 每 个 消费 者 都 属于 一 个 分 组 ， 每 个 分 组 中 可 以 有 多 个 消费 者 。 主 题 中 的 菜 条 消息 可 以 被 多 个 分 组 获得 ， 不 过 在 同一 分 组 中 ， 只 有 一 个 消费 者 会 获得 该 消息 。 











到 11-12 是 Kafka 系 统 的 整体 架构 。 当 然 ， 性 能 的 显著 提升 并 不 一 定 意味 着 传递 可 靠 性 的 下 降 。 对 于 JMS 规 范 的 实现 而 言 ， 消 息 传输 的 方式 非常 直接 : 有 且 只 有 一 次 。 而 在 Kafka 中 则 有 所 不 同 ， 消 息 传 
输 的 方式 可 以 分 为 3 个 档次 。 











“最 多 一 次 (At Most Once) : 这 个 和 JMS 中 的 非 持久 化 消息 类 似 ， 只 发 送 一 次 ， 无 论 成 败 都 不 会 重 发 。 如 果 在 消息 处 理 过 程 中 出 现 了 异常 ， 导 致 部 分 消息 未 能 继续 处 理 ， 那 么 此 后 未 处 理 的 消息 将 不 能 


被 获取 。 


“至 少 一 次 (At Least Once) : 消息 至 少 发 送 一 次 ， 如 果 消 息 未 能 接受 成 功 ， 可 能 会 重 发 ， 直 到 接收 成 功 。 消 费 者 获取 并 处 理 消 息 ， 但 是 若 发 生 异 常 将 会 导致 状态 保存 操作 未 能 执行 成 功 ， 那 么 接 下 来 
再 次 获取 时 可 能 会 获得 上 次 已 经 处 理 过 的 消息 。 


“正好 一 次 (Exactly Once) : 消息 只 会 发 送 一 次 ， 这 其 实 和 关系 型 数据 库 中 的 事务 概念 一 致 。 目 前 Kafka 并 没有 严格 地 去 实现 基于 两 阶段 提交 的 事务 机 制 。 
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11-12 ”Kafka 的 整体 架构 




















考虑 到 重复 接收 数据 总 比 丢 失 数 据 要 好 ， 通 常情 况 下 Kafka 的 “至 少 一 次 ”机 制 是 使 用 者 的 首选 方案 。 整 体 而 言 ， 对 于 一 些 常规 的 消息 系统 ，Kafka 是 一 个 理想 的 选择 。 内 在 的 分 布 式 设计 、 分 区 和 副 
本 ， 使 得 其 具有 良好 的 扩展 性 、 容 错 性 和 性 能 优势 。 不 过 ， 目 前 Kafka 并 没有 提供 JMS 中 的 事务 性 消息 传输 ， 无 法 严格 地 保证 消息 一 定 会 被 处 理 或 只 处 理 一 次 ， 因 此 其 比较 适合 于 那些 对 一 致 性 要 求 不 高 的 应 
场景 。 































































































11.4.2 ”实时 性 数据 分 析 之 Storm 简 介 











Apache Storm (http://storm.apache.org) 源 于 Twitter 公 司 ， 目 前 已 经 成 为 Apache 顶 级 的 开源 项 目 ， 截 至 本 章 写作 之 时 其 最 新 的 版 本 已 更 新 到 1.0.2。Storm 是 一 个 分 布 式 的 、 容 错 的 实时 计算 系 
统 ， 除 了 用 于 实时 性 分 析 之 外 ， 它 还 可 用 于 在 线 数 据 挖掘 、 机 器 学 习 、 商 务 智 能 ETL、 分 布 式 远 程 调用 等 领域 。Storm 为 分 布 式 实时 计算 提供 了 一 组 通用 原 语 ， 这 是 管理 队列 及 工作 者 集群 的 另 一 种 方式 。 在 
计算 时 就 将 结果 以 流 的 形式 输出 给 用 户 ， 以 进一步 提升 实时 性 。 
















































































首先 我 们 来 理解 Storm 体系 中 一 些 重要 的 概念 和 含义 ， 包 括 元 祖 (Tuple) 、 数 据 流 (Stream) 、Spout、Bolt、 流 量 分 组 (Streaming Group) 和 拓扑 结构 (Topology) 。 








“元 组 : 这 是 Storm 中 使 用 的 一 种 数据 结构 ， 包 含 了 若干 个 键 - 值 对 〈Key-Value Pair) 的 列表 ， 这 里 的 键 - 值 对 的 定义 和 哈 希 表 的 定义 相 类 似 。 元 组 以 一 种 分 布 式 的 方式 并 行 地 在 Storm 和 集群 上 进行 创建 和 处 


“ 数据 流 : 数据 流 是 Storm 中 非常 重要 的 一 个 抽象 概念 ， 是 一 个 没有 边界 的 元 组 序列 ， 由 Spout 和 Bolt 进 行 发 送 和 转发 。 对 数据 流 的 定义 主要 就 是 对 其 中 的 元 组 进行 定义 ， 此 外 还 需要 为 其 分 配 唯一 的 标识 


“ Spout: 英文 单词 Spout 翻 译 过 来 就 是 水 龙头 的 意思 ， 顾 名 思 义 它 是 提供 数据 源 的 ， 是 一 个 计算 任务 中 数据 的 生产 者 。Spout 可 以 从 数据 库 或 文件 系统 等 加 载 数 据 ， 然 后 作为 入 口 ， 向 若干 节点 组 成 的 拓 
扑 结构 中 发 送 数据 流 。 每 个 Spout 都 可 以 发 送 多 个 数据 流 ， 同 时 也 可 以 按照 送 达 的 可 靠 性 划分 等 级 。 


“ Bolt: 可 以 将 其 理解 为 运算 或 函数 ， 用 于 将 一 个 或 多 个 数据 流 作 为 输入 ， 实 施加 工 处 理 后 ， 再 进行 新 数据 流 的 输出 。Bolt 可 以 接受 Spout 或 其 他 Bolt 发 送 的 数据 ， 并 据 此 建立 复杂 的 流转 网 络 ， 形 成 最 终 
的 拓扑 结构 ， 完 成 对 整 条 流水 线 数据 的 操作 。Storm 计 算 中 的 逻辑 几乎 都 是 在 Bolt 中 完成 的 ， 例如， 过 滤 、 分 类 、 聚 集 、 计 算 、 查 询 数 据 库 等 。 


* 流量 分 组 : 它 决定 了 Spout 和 Bolt 节 点 之 间 相互 连接 的 方式 ， 主 要 分 为 以 下 几 种 类 型 。 
a) 洗 牌 分 组 (Shuffle Grouping) : 随机 地 将 元 组 分 发 到 各 个 Bolt 上 ， 理 论 上 这 样 做 的 结果 是 每 个 Bolt 都 会 接收 到 同样 数量 的 元 组 。 


b) 按 字段 值 分 组 (Fields Grouping) : 按照 指定 的 元 组 字段 来 进行 分 组 。 例 如 ， 按 照 “ 水 质 ”来 划分 ， 那 么 具有 同等 质量 的 水 源 会 分 到 一 组 ， 发 送 到 同一 个 或 同一 组 Bolt 上 。 这 个 逻辑 和 Hadoop 中 
MapReduce 框 架 非 常 相似 ， 这 样 一 来 ， 数 据 流 上 游 的 Spout 或 Bolt 节 点 就 和 Mapper 比 较 接近 ， 而 下 游 的 Bolt 节 点 则 和 Reducer 比 较 接近 。 





5) 广播 (All) : 所 有 的 元 组 都 会 发 送 到 所 有 的 Bolt 上 。 





d) 全 局 (Global) : 所 有 的 元 组 都 发 送 到 全 局 指定 的 某 个 Bolt 上 。 


e) 不 做 指定 (None) : 目前 等 同 于 洗 牌 分 组 ， 将 来 可 能 会 进行 新 的 定义 扩充 。 





f) 指定 分 组 (Direct) : 明确 指定 元 组 发 送 到 哪个 确切 的 Bolt 上 。 


“ 拓扑 结构 : 它 是 由 流量 分 组 连接 起 来 的 Spout 和 Bolt 节 点 网 络 。 在 Storm 中 ， 一 个 实时 的 计算 应 用 程序 的 逻辑 被 封装 在 一 个 拓扑 对 象 中 ， 也 可 以 称 为 计算 拓扑 。 如 果 与 Hadoop 的 生态 系统 相对 比 ， 拓 扑 结 
构 则 类 似 于 MapReduce 的 任务 ， 但 是 它们 之 间 的 关键 区 别 在 于 ， 一 个 MapReduce 任 务 最 终 总 是 会 结束 的 ， 然 而 一 个 Storm 的 拓扑 结构 将 会 一 直 运 行 ， 直 到 使 用 者 主动 关闭 或 出 现 异 常 。 








为 了 更 好 地 理解 ， 让 我 们 为 storm 拓扑 中 的 基本 数据 流 绘制 一 张 图片 。 从 左 到 右 ， 你 将 看 到 称 为 Stream 的 数据 元 组 依次 通过 Spout 和 Bolt。Spout 就 像 数据 源 一 样 工作 ， 并 为 Bolt 发 送 数据 。Bolt 将 处 理 
来 自 Spout 的 数据 ， 并 将 处 理 的 数据 发 送 到 应 用 程序 或 其 他 Bolt 以 进行 更 多 的 处 理 。 类 似 Flume，Storm 也 支持 多 层 构 建 更 复杂 的 逻辑 。 如 果 你 对 更 多 的 细节 感 兴趣 ， 那 么 可 以 参考 Storm 的 官方 网 站 。 
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11-13 Storm 的 拓扑 














从 架构 的 角度 理解 ，Storm 的 集群 主要 包含 两 种 节点 : 主 节 点 Nimbus 和 工作 节点 Supervisor， 它 们 都 是 无 状态 的 ， 可 以 从 失败 中 快速 恢复 ， 健 壮 性 较 好 。Nimbus 负 责 管 理 、 协 调和 监控 在 集群 上 运行 
的 拓扑 结构 ， 包 括 拓扑 的 发 布 、 任 务 指派 、 出 错 后 的 恢复 等 。 从 这 点 上 看 ， 其 功能 和 Hadoop 集 群 中 的 工作 跟踪 (Job Tracker) 节点 非常 相似 。Supervisor 在 接收 到 Nimbus 分 配 的 任务 之 后 ， 会 启动 名 为 
Worker 的 进程 来 完成 工作 。 每 个 Worker 负 责 一 个 拓扑 结构 ， 而 一 个 Supervisor 可 以 启动 多 个 Worker， 并 负责 管理 它们 ， 类 似 Hadoop 中 任务 跟踪 (Task Tracker) 节点 的 角色 。 此 外 ，storm 同 样 是 利 有 


疆 全 


ZooKeeper 来 管理 节点 的 集群 的 ， 例 如 任务 的 分 配 情况 、Worker 的 状态 、Supervisor 之 间 的 Nimbus 的 拓扑 度量 等 。Nimbus 和 Supervisor 节 点 之 间 的 通信 也 是 结合 ZooKeeper 的 状态 变更 通知 和 监控 通知 
来 处 理 的 。 





























11.4.3 ”Flume、Kafka 和 Storm 的 整合 方案 
























































使 用 Apache Flume、Kafka 和 Storm， 可 以 构建 另 一 种 跟踪 系统 ， 以 更 加 实时 的 方式 收集 、 存 储 和 处 理 用 户 的 行为 数据 。 图 11-14 列 出 了 该 系统 的 整个 框架 。 其 中 Flume 使 用 Kafka 沉 淀 器 将 大 量 数据 
存储 到 消息 队列 中 ，Storm 使 用 Kafka 中 的 数据 并 生成 实时 性 更 强 的 报告 ， 如 实时 仪表 板 。 






































到 目前 为 止 ， 我 们 已 经 学 习 了 生成 、 收 集 、 存 储 和 分 析 用 户 行为 数据 的 基本 方法 。 但 是 理论 知识 还 不 足以 建立 一 个 实用 的 系统 。 为 了 确保 你 能 掌握 最 重要 的 技能 ， 我 们 通过 一 个 案例 ， 逐 步 展 示 如 何 构 
建 这 样 的 系统 。 案 例 的 实践 不 仅 涵盖 了 第 三 方 解 决 方案 ， 还 涵盖 了 自行 设计 的 解决 方案 。 此 外 ， 对 于 自行 设计 的 方案 ， 本 文 还 将 由 浅 入 深 ， 覆 盖 三 种 类 型 的 实现 : 第 一 个 是 Flume 加 本 地 文件 系统 ， 第 二 个 
是 Flume 加 HDFS 再 加 Hive， 最 后 一 个 是 Flume 加 Kafka 再 加 Storm。 
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图 11-14 ”通过 Flume、Kafka 和 Storm 搭 建行 为 跟踪 的 实时 处 理 系统 


11.5 “案例 实践 


在 深入 细节 之 前 ， 我 们 先 来 看 看 案例 的 基本 概述 。 下 面 将 模拟 电子 商务 网 站 上 的 一 张 页 面 ， 这 张 页 面 上 包含 了 三 个 类 别 : 女装 (Women'” s Clothing) 、 男 装 (Men'”s Clothing) 和 童装 (Kid' s 
Clothing&Shoes) 。 在 每 个 类 别 下 ， 都 有 几 项 商品 。 用 户 可 以 打开 此 页 面 ， 或 单 击 一 个 商品 的 按钮 表示 对 其 感 兴趣 。 图 11-15 显 示 了 该 测试 页 面 的 一 个 截屏 。 


























Please Choose Category 


Dresses $100.00 
Coats $50.00 
Sweaters $25.00 
Jeans $28.00 


Shorts $15.00 





图 11-15 测试 页 面 截 屏 








在 这 个 研究 案例 中 ， 我 们 将 设置 一 个 简单 的 Web 服 务 器 并 托管 此 页 面 。 当 然 ， 更 重要 的 是 ， 我 们 将 设计 一 个 系统 来 记录 这 样 的 行为 ， 并 从 中 得 到 一 些 数据 分 析 的 结果 。 通 过 这 个 过 程 ， 你 将 了 解 如 何 使 
谷歌 分 析 这 类 第 三 方 方 案 ， 以 及 自行 设计 分 析 方 案 的 三 个 实现 模块 : Flume 的 基本 用 法 、 批 处 理 模式 下 的 数据 处 理 和 实时 模式 下 的 数据 处 理 。 















































11.5.1 数据 模式 的 设计 














由 于 我 们 会 尝试 谷歌 分 析 的 解决 方案 ， 因 此 在 数据 模式 的 设计 部 分 采用 了 谷歌 分 析 常 用 的 几 个 字段 : category、action、label 和 value， 同 时 还 加 上 了 客户 端的 时 间 戳 。 














表 11-4 案例 中 采集 的 字段 


字 上 段 含义 

category 商品 的 主 分 类 。 本 案例 中 假设 只 有 一 个 名 为 Main 的 主 分 类 

ee 选择 的 商品 子 分 类 ， 包括 女装 (Women's Clothing)、 男 装 (Men's Clothing) 和 童装 ( Kid’s 
Clothing & Shoes) 

label 被 点 击 商品 的 名 称 

value 被 点 击 商品 的 价格 


timestamp 客户 端 时 间 戳 


: 对 于 谷歌 分 析 提 供 的 默认 字段 category、action、label 和 value ， 可 以 根据 你 的 业务 需求 ， 进 行 自 定义 ， 而 不 必 完 全 依照 表 11-4 的 方式 。 
“ 在 完全 进行 自主 设计 时 ， 我 们 采用 了 同样 的 数据 模式 。 当 然 ， 你 没有 必要 遵循 category、action、label 和 value， 此 外 你 还 可 以 定义 更 多 新 的 字段 ， 例 如 被 用 户 点 击 的 商品 在 页 面 的 什么 位 置 ， 等 等 ， 更 多 


细节 可 回顾 第 11.1.3 节 。 这 也 充分 体现 了 自主 设计 的 优势 。 


11.5.2 ”实验 环境 设置 








于 本 案例 的 硬件 环境 和 之 前 的 案例 相 类 似 ， 仍 然 使 用 三 台 苹 果 个 人 电脑 作为 服务 器 ， 两 台 MacBook Pro (MacBookPro2012 和 MacBookPro2013) 和 一 个 iMac (iMac2015) 。 局 域 网 和 互联 网 都 
是 必需 的 。 局 域 网 中 ， 三 台 机 器 的 IP 分 别 如 下 : 
































iMac2015 192.168.1.48 


MacBookPro2013 192.168.1.28 


MacBookPro2012 192.168.1.78 























至 于 软件 ， 由 于 所 有 的 操作 系统 都 是 Mac OS， 下 面 示例 中 的 命令 和 路 径 都 以 Mac OS 为 准 ， 其 他 的 操作 系统 可 能 需要 适当 调整 。 其 他 需要 使 用 的 重要 软件 包括 谷歌 分 析 、Java、Apache Tomcat、 
Flume、HDFS、Kafka、Storm 和 ZooKeeper 等 。 对 于 本 章 新 介绍 的 软件 ， 本 节 将 在 剩余 部 分 逐一 描述 它们 的 设置 和 使 用 。 和 之 前 的 案例 相同 ， 你 可 以 通过 这 个 GitHub 链 接 下 载 用 于 实践 的 所 有 样 例文 




















件 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm.git 








我 们 假设 你 已 经 实践 了 之 前 所 有 章节 的 案例 ， 因 此 JDK 1.8，Intranet 中 的 主机 名 和 一 些 必要 的 环境 变量 都 已 就 结 。 此 外 ， 由 于 本 章节 介绍 了 一 些 新 的 软件 ， 我 们 也 需要 为 其 设置 环境 变量 。 





请 注意 ， 


这 


























些 设置 非常 重 为 它们 将 对 后 面 的 实验 部 分 产生 影响 。 在 Mac OS 中 ， 你 仍然 可 以 通过 运行 “sudo vim/etc/profile” 这 类 命令 来 做 到 这 一 点 。 如 下 的 代码 清单 展示 了 设置 的 样 例 : 








export JAVA HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0 112.jdk/Contents/Home 
export PATH=/usr/bin:/bin:/sbin:/usr/sbin:/usr/local/bin 


export TOMCAT HOME=/Users/huangsean/Coding/apache-tomcat-8.5.3 
export PATH=$PATH: $TOMCAT HOME/bin 


export NGINX HOME=/usr/local/nginx 
export PATH=$PATH:$NGINX HOME/sbin 


export HADOOP HOME=/Users/huangsean/Coding/hadoop-2.7.3 
export PATH=$PATH:$HADOOP HOME/bin 

export PATH=$PATH:$HADOOP HOME/sbin 

export HADOOP MAPRED HOME=$HADOOP HOME 

export HADOOP COMMON HOME=$HADOOP HOME 

export HADOOP HDFS HOME=$HADOOP HOME 

export HADOOP YARN HOME=$HADOOP HOME 

export YARN HOME=$HADOOP HOME 

export HADOOP COMMON LIB NATIVE DIR=$HADOOP HOME/1ib/native 
export HADOOP OPTS="-Djava.library.path=$HADOOP HOME/1ib" 


export FLUME HOME=/Users/huangsean/Coding/apache-flume-1.7.0-bin 
export PATH=$FLUME HOME/bin:$PATH 


export HIVE HOME=/Users/huangsean/Coding/apache-hive-2.1.0-bin 
export PATH=$HIVE HOME/bin:$PATH 


export ZO00KEEPER HOME=/Users/huangsean/Coding/zookeeper-3.4.9 
export PATH=$200KEEPER HOME/bin :$PATH 


export KAFKA HOME=/Users/huangsean/Coding/kafka 2.11-0.10.1.0 
export PATH=$KAFKA HOME/bin:$PATH 


export STORM HOME=/Users/huangsean/Coding/apache-storm-1.0.2 
export PATH=$STORM HOME/bin :$PATH 








你 可 以 在 https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/conf/profile 中 访问 这 些 内 容 ， 并 根据 自己 安装 的 目录 来 调整 相应 的 路 径 。 
































当然 ， 如 果 你 不 能 完全 理解 这 些 内 容 所 代表 的 含义 ， 也 不 用 担心 ， 我 们 将 在 以 下 的 实验 中 逐一 设置 它们 。 首 先 来 看 下 如 何 集成 谷歌 分 析 这 样 的 第 三 方 解 决 方案 。 








11.5.3 ”谷歌 分 析 实 战 


1. 基 本 框架 和 准备 工作 




















对 于 谷歌 分 析 (Google Analytics) ， 我 们 使 用 了 所 有 三 台 机 器 、 局 域 网 和 互联 网 。 当 然 还 需要 申请 谷歌 分 析 的 账户 ， 并 为 Java 和 JavaScript 开 发 安装 JDK， 以 及 使 用 Tomcat 的 默认 设置 搭建 Web 服 务 



































器 来 托管 测试 页 面 。 由 于 我 们 正在 尝试 构建 一 个 Web 服 务 器 集群 ， 因 此 也 需要 像 Nginx 这 样 的 负载 均衡 软件 。 图 11-16 列 出 了 架构 的 示意 图 ， 它 将 帮助 你 理解 下 一 步 要 做 什么 。 图 11-16 与 
































图 








11-6 的 示意 


图 非 






































常 相似 ， 不 过 图 11-16 使 用 了 具体 的 机 器 名 称 和 软件 名 称 。 正 如 你 所 看 到 的 ， 我 们 使 用 了 三 台 机 器 和 局 域 网 来 构建 一 个 Web 前 端 集群 。Tomcat 在 每 台 机 器 上 提供 Web 服 务 ，Nginx 为 用 户 访问 提供 负载 均 





























衡 。 另 一 方面 ， 谷 歌 分 析 的 跟踪 代码 将 通过 互联 网 向 谷歌 服务 器 持续 发 送 用 户 访问 的 日 志 记 录 。 


用 户 的 访问 
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二 一 第 = 方 的 解决 广 宁 一 > 















图 11-16 ”使 用 谷歌 分 析 的 实验 性 框架 


从 这 个 基本 框架 可 以 看 出 ， 谷 歌 分 析 解决 方案 的 第 一 步 就 是 申请 谷歌 分 析 的 账户 [1]， 并 阅读 相关 的 用 户 指南 向。 在 此 基础 之 上 ， 你 可 以 将 其 跟踪 代码 嵌入 待 测试 网 页 。 接 下 来 ， 只 需 通 过 Tomcat 设 置 和 




















启动 Web 服 务 器 并 展示 该 网 页 就 可 以 了 。 最 后 ， 你 可 以 在 自己 的 谷歌 分 析 账 户 中 读 取 一 些 数据 报告 。 





2. 谋 入 谷歌 分 析 的 代码 
让 我 们 先 来 看 看 示例 代码 是 如 何 部 署 谷歌 分 析 的 跟踪 代码 的 。 你 将 在 本 书 的 样 例文 件 中 找到 一 个 名 为 “list-ga.html” 的 文件 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/GoogleAnalytics/list-ga.html 


打开 此 文件 ， 你 会 发 现 两 个 相关 的 代码 片段 。 第 一 个 代码 片段 如 下 所 示 : 








<!-- Start: Google Analytics for page loading--> 


<script> 


(function (i,s,o,g,r,a,m) {i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){ 
(i[r] .q=i[r] .ql|[]) .push(arguments)},i[r] .l=l*new Date();a=s.createElement (0), 
m=s.getElementsByTagName (o) [0];a.async=1;a.src=g;m.parentNode.insertBefore (a,m) 
}) (window, document, 'script', 'https://www.google-analytics.com/analytics. 


js','ga'); 

gal(l'create', 'UA-87676846-1', ‘auto'); 

gal(l'set', 'userId', 'Joy2017'); // Set the user ID using signed-in user id. 
gal('send', 'pageview'); i 


</script> 
<!-- End; Google 


Analytics for page loading--> 





它 将 处 理 页 面 级 的 数据 ， 比 如 某 位 












































到 。 您 还 可 以 设置 对 应 








程序 有 意义 的 用 户 ID (userld) 。 





以 下 代码 段 将 处 理事 件 级 的 数据 ， 如 点 击 一 个 商品 的 按钮 : 


户 打开 此 网 页 。 此 代码 的 关键 是 谷歌 分 析 的 UA ID， 本 例 中 是 UA-87676846-1。 请 正确 使 

















你 的 UA ID， 否 则 将 会 无 法 获得 统计 报告 ， 它 可 以 在 你 的 分 析 账 户 中 找 





// Start: Google 


function sendGA (e 


Var category 
var action = 


Analytics for click 
1 


= e.getAttribute ("data-gaCategory"); 
e.getAttribute ("data-gaAction"); 


Var label 
Var value 


e.getAttribute ("data-gaLabel"); 
e.getAttribute ("data-gaValue"); 


gal("send", "event", category, action, label, value); 


} 
// End: Google Analytics for click 























谷歌 预先 定义 了 一 些 参数 ， 例 如 category、action，、label 和 value。 通 常 它 们 是 字符 串 类 型 的 参数 ， 除 了 value 之 处 。 这 里 我 们 使 用 category、action 和 label 来 标记 用 户 点 击 的 按钮 ， 并 使 用 value 来 
保存 被 点 击 商品 的 价格 。 参 数 的 使 用 可 以 是 非常 灵活 的 ， 只 要 对 你 的 业务 有 意义 就 可 以 。 至 于 每 个 商品 按钮 对 应 的 category、action、label 和 value 值 ， 可 以 在 页 面 的 按钮 中 进行 设置 : 



































<div id="menu"> 





<ul> 
<1i><a href="#">Women's 
<ul> 
<1li><a href="#" 
<li><a href="#" 
<1i><a hre: 
<1i><a hre. 
<li><a href="#" 
</ul> 
</1i> 


Clothing</a> 


data-gaCategory="Main Catalog" data-gaAction="Women's Clothing Clicked" data-gaLabel 


data-gaCategory="Main Catalog" data-gaAction="Women's Clothing Clicked" 
data-gaCategory="Main Catalog" data-gaActio: Clothing Clicked" 
data-gaCategory="Main Catalog" data-gaActio: Clothing Clicked" 
data-gaCategory="Main Catalog" data-gaActio: 





<li><a href="#">Men's Clothing</a> 


<ul> 
<li><a href="#" 
<li><a href="#" 
<li><a href="#" 
<li><a href="#" 
<li><a href="#" 

</ul> 

</1i> 








Clothing Clicked" data-gaLabe 


"Dresses" data-gaValue="100" onclick="sendGA (this)">Dresses 
"Coats" data-gaValue="50" onclick="sendGA (this)">Coats $50. 
"Sweaters" data-gaValu 
"Jeans" data-gaValue: 
"Shorts" data-gaValue="15" onclick="sendGA (this)">Shorts $1 





="25" onclick="sendGA (this)">Sweater 


2 onclick="sendGA (this) ">Jeans $28. 


data-gaCategory="Main Catalog" data-gaAction= Clothing Clicked" data-gaLabel="Casual Shirts" data-gaValue="36" onclick="sendGA (this)">Cast 


data-gaCategory="Main Catalog" data-gaActio: 
data-gaCategory="Main Catalog" data-gaActio: 
data-gaCategory="Main Catalog" data-gaActio: 





<li><a href="#">Kids' Clothing & Shoes</a> 


<ul> 
<li><a href="#" 
<li><a href="#" 
<1li><a href="#" 
<li><a href="#" 
<li><a href="#" 

</ul> 

</1i> 





data-gaCategory="Main 
data-gaCategory="Main 
data-gaCategory="Main Catalog" data-gaActio: 
data-gaCategory="Main Catalog" data-gaActio: 
data-gaCategory="Main Catalog" data-gaAction= 


Kids' Clothing & Shoes Clicked" 
Kids' Clothing & Shoes Clicked" 
Kids' Clothing & Shoes Clicked" 
& 
& 






Kids' Clothing & Shoes Clicked" 
Kids' Clothing 


<div class="clear"></div> 


</ul> 
</div> 


Clothing Clicked" data-gaLabe 
Clothing Clicked" data-gaLabe 
Clothing Clicked" data-gaLabe 
data-gaCategory="Main Catalog" data-gaAction= Clothing Clicked" data-gaLabel= 





T-Shirts" data-gaValue="12" onclick="sendGA (this)">T-Shirts 
Sport Coats" data-gaValue="58" onclick="sendGA (this)">Sport 
Jeans" data-gaValue="25" onclick="sendGA (this)">Jeans $25.0C 
Pants" data-gaValue="35" onclick="sendGA (this) ">Pants $35.0C 


irls' Clothing" data-gaValue="65" onclick="sendGA (t 
Boys' Clothing" data-gaValu: 
Girls' Shoes" data-gaValue=' 
Boys' Shoes" data-gaValue="26" onclick="sendGA (this) 
Shoes Clicked" data-gaLabel="Unisex Accessories" data-gaValue="8" onclick="sendGA 





20" onclick="sendGA (tt 
0" onclick="sendGA (this 





3. 搭 建 Web 服 务 


好 了 ， 谷 歌 的 跟踪 代码 已 经 襄 入 了 待 测试 的 页 面 list-ga.html。 我 们 还 需要 Web 服 务 器 来 展示 这 个 页 面 。 本 案例 使 

















和 Web 服 务 器 。 可 从 这 个 链接 下 载 并 解压 Tomcat 的 8.x 版 本 : 


https://tomcat.apache.org/download-80.cgi 




















你 可 以 使 用 Tomcat 的 默认 配置 ， 运 行 Tomcat 中 bin 目 录 的 startup.sh: 





的 Apache Tomcat， 通 常 被 称 为 Tomcat 服 务 器 ， 其 是 一 个 开源 的 Java Servlet 容 器 





[huangsean@iMac2015:/Users/huangsean/Coding] /Users/huangsean/Coding/apache-tomcat-8.5.3/bin/startup.sh 














如 果 你 已 经 按照 下 面 的 方式 设置 了 Tomcat 主 目录 的 环境 变量 ， 那 么 只 需 运行 命令 行 startup.sh 就 可 以 了 : 





export TOMCAT HOME=/Users/huangsean/Coding/apache-tomcat-8.5.3 
export PATH=$PATH: $TOMCAT _ HOME/ bin 





接 下 来 ， 将 list-ga.html 放 入 名 为 tracking 的 webapps 目 录 中 ， 如 
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11-17 的 屏幕 截 


图 














所 示 。 








今天 Eee 


Doonm MM | 








MM logs copy 

~ webapps MM examples 

八 月 MM host-manager 
MM manager 

四 bin bn ROOT 

七 月 


MM conf 
Ml lib 

MM temp 
MM work 


六 月 


前 7 天 
e list-ma.html 
前 30 天 

click 
加 jsp 
MM serviets 
MM WEB-INF 
七 月 
MM websocket 
六 月 
@ index.html 


国 LICENSE 

国 NOTICE 

国 RELEASE-NOTES 
RUNNING .txt 





图 11-17 ”将 list-gahtml 放 入 Tomcat 的 \webapps\trackine\ 目 录 中 

















默认 的 Tomcat 配 置 会 使 用 8080 端 口 ， 如 果 Tomcat 启 动 成 功 ， 就 可 以 通过 如 下 链接 访问 此 网 页 : 























http://localhost: 8080/tracking/list-ga.html 


























其 页 面 展示 内 容 如 图 11-15 所 示 。 我 们 可 以 在 所 有 的 三 台 机 器 上 用 类 似 的 方式 安装 Tomcat 服 务 器 。 为 了 区 分 不 同 的 机 器 ， 我 略微 修改 了 一 下 list-ga.html 的 代码 ， 将 机 器 的 名 称 展示 在 明显 的 位 置 。 例 
如 ， 在 机 器 iMac2015 上 的 list-ga.html 文 件 (https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/GoogleAnalytics/list-ga.html) 中 ， 我 添 
加 了 名 字 iMac2015， 代 码 如 下 所 示 : 





<h3>Please Choose Category (on iMac2015)</h3> 





如 此 一 来 ， 我 们 可 以 同时 对 三 台 Web 服 务 器 进行 访问 ,链接 如 下 : 
http://iMac2015: 8080/tracking/list-ga.html 
http://MacBook2012: 8080/tracking/list-ga.html 


http://MacBook2013: 8080/tracking/list-ga.html 





三 张 页 面 示意 图 如 图 11-18 所 示 。 

















Please Choose Category (on iMac2015) 


Please Choose Category (on MacBook2012) 


Women's Clothin 
Please Choose Category (on MacBook2013) 


Women's Clothing Men's Clothing Kids' Clothing & Shoes 














图 11-18 ”三 台 机 器 上 的 list-ga.html 将 展示 不 同 的 主 标题 














现在 有 三 台 可 用 的 Web 服 务 器 ， 我 们 还 需要 一 个 负载 均衡 的 服务 。 这 里 可 在 iMac2015 这 台 机 器 上 启动 Nginx 以 达到 此 目的 。 你 可 以 在 这 个 链接 中 下 载 并 编译 Nginx 的 1.10 版 本 : 











https://nginx.org/en/ 





























与 其 他 开源 软件 不 同 的 是 ，Nginx 通 常 不 会 提供 可 以 直接 使 用 的 包 。 你 需要 自己 进行 配置 和 编译 。 解 压 后 找到 诸如 /Users/xxx/nginx-1.10.2 的 目录 ， 然 后 运行 如 下 命令 行 : 





























[huangsean@iMac2015: /Users/huangsean/Coding/nginx-1.10.2] ./configure --without-http_ rewrite module 
[huangsean@iMac2015:/Users/huangsean/Coding/nginx-1.10.2]sudo make 
[huangsean@iMac2015:/Users/huangsean/Coding/nginx-1.10.2]sudo make install 








获得 可 执行 的 程序 包 之 后 ， 你 需要 编辑 /usr/local/nginx/conf/ 目 录 中 名 为 nginx.conf 的 配置 文件 ， 如 图 11-19 所 示 。 


在 nginx.conf 文 件 中 加 入 如 下 的 内 容 : 





upstream tracking.com { #cluster name 
server MacBookPro2013:8080 weight=1; 
server MacBookPro2012:8080 weight=1; 


server iMac2015:8080 weight=2; #higher weight for more powerful machine 
} 

















上 述 编辑 的 内 容 包括 了 三 台 Web 服 务 的 链接 ， 并 采用 了 轮 询 的 机 制 来 分 配 用 户 访问 的 流量 。 由 于 iMac2015 的 硬件 配置 较 好 ， 我 们 将 该 电脑 的 weight 设 置 为 其 他 两 台 机 器 的 2 倍 ， 为 其 分 配 更 多 的 流量 。 
然后 ， 你 可 以 运行 如 下 命令 来 启动 Nginx 的 服务 : 
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MM jamf ME scgi_temp _ mime.types.default 


a share BS uwsgi temp 


nginx.conf.default 

scgi_params 

图 etc scgi_params.default 
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四 man uwsgi_params.default 
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11-19 设置 Nginx 的 配置 文件 








[huangsean@iMac2015:/Users/huangsean/Coding/nginx-1.10.2]sudo /usr/local/nginx/sbin/nginx 























如 果 你 已 经 按照 下 面 的 方式 设置 了 Nginx 主 目录 的 环境 变量 ， 那 么 只 需要 运行 命令 行 hginx 即 可 : 











export NGINX HOME=/usr/local/nginx 
export PATH=$PATH: $NGINX HOME/Sbin 

















Nginx 成 功 启动 后 ， 它 会 使 用 80 端 口 ， 访 问 http://iMac2015/tracking/list-ga.html 进 行 测试 。 通 过 标记 的 网 页 上 的 机 器 名 ， 你 就 会 知道 每 次 到 Nginx 的 请 求 是 由 哪 台 机 器 提供 的 服务 。 由 于 权重 的 配 
置 ， 你 将 有 更 多 的 机 会 看 到 来 自 iMac2015 的 页 面 。 























(on MacBook2012 ) 


(on MacBook2013 ) 


(on iMac2015 ) 








图 11-20 ”访问 负载 均衡 的 链接 ， 将 轮流 看 到 三 台 机 器 上 的 list-ga.html 页 面 








4 获取 报告 























现在 ,我 们 有 三 台 Web 服 务 器 和 一 个 负载 均衡 ， 只 要 你 开始 访问 含有 谷歌 分 析 跟 踪 码 的 list-ga.html， 用 户 的 行为 数据 就 会 源源 不 断 地 发 往 谷歌 ， 它 会 帮 你 记录 并 做 出 基本 的 分 析 。 登 录 你 的 谷歌 分 析 账 
户 ， 看 看 能 获取 怎样 的 数据 报告 。 建 议 从 站 点 的 Overview 开 始 ， 你 将 看 到 最 近 半 小 时 内 发 生 的 网 页 浏览 行为 和 其 他 的 一 些 基 本 信息 。 如 果 是 从 上 述 的 负载 均衡 链接 打开 被 测试 网 页 ， 几 秒 钟 之 后 你 将 在 
Overview 中 看 到 一 次 页 面 访问 和 访问 者 的 位 置 ， 如 图 11-21 所 示 。 





除了 像 访问 页 面 视图 
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Right now 





图 11-21 在 美国 西海 岸 ， 一 位 用 户 访问 了 list-ga.html 页 面 1 次 





项 卡 上 的 数据 发 生 了 变化 ， 比 如 按钮 的 点 击 次 数 和 相关 的 category 及 action， 如 图 11-22 所 示 。 
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11-22 ”一 位 用 户 点 击 了 list-ga.html 页 面 中 某 个 商品 的 按钮 





如 果 运 行 谷歌 分 析 超 过 一 天 ， 你 还 可 以 获取 所 有 











户 行为 的 总 结 性 报告 。 如 图 11-23 所 示 。 
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图 11-23 近期 用 户 行为 数据 的 总 结 








通过 以 上 这 些 步骤 ， 我 们 现在 可 以 通过 谷歌 分 析 来 跟踪 网 站 用 户 的 行为 。 当 然 ， 第 三 方 提供 的 解决 方案 存在 种 种 限制 ， 例 如 跟踪 的 数据 种 类 、 隐 私 性 和 安全 性 ， 等 等 。 如 果 你 开始 考虑 设计 并 实现 自己 
的 跟踪 系统 ， 那 么 请 继续 本 章 的 剩余 部 分 ， 我 们 将 展示 几 种 主流 的 实现 。 

















11.5.4 自主 设计 实战 之 Flume、HDFS 和 Hive 的 整合 

















这 部 分 的 实践 我 们 仍然 采用 类 似 的 硬件 环境 ， 不 过 在 实验 阶段 ， 我 们 可 以 忽略 互联 网 ， 因 为 无 需 向 谷歌 分 析 这 样 的 第 三 方 发 送 日 志 。 至 于 软件 ， 除 了 先前 已 经 安装 了 的 那些 ， 我 们 还 需要 Apache 
Flume、Hadoop 的 HDFS、Hive、ZooKeeper、Kafka 和 Storm。ZooKeeper 在 之 前 的 章节 已 有 所 介绍 ， 这 里 它 将 向 Kafka 和 Storm 提 供 分 布 式 的 配置 、 同 步 和 命名 注册 等 服务 。 通 常人 们 使 用 不 同 的 服务 
器 来 建立 HDFS、Kafka 和 Storm 等 集群 。 不 过 ， 这 里 我 们 没有 足够 的 硬件 资源 ， 因 此 会 在 相同 的 三 台 机 器 上 部 署 多 种 集群 。 









































1. 行 为 日 志 的 生成 




















和 谷歌 分 析 的 解决 方案 有 所 不 同 ， 现 在 我 们 需要 考虑 整个 跟踪 系统 的 方方面面 ， 包 括 数据 的 生成 、 收 集 、 存 储 和 分 析 。 本 节 先 从 访问 日 志 的 生成 开始 。 你 可 能 会 好 奇 如 何 为 事件 级 的 数据 添加 日 志 ， 其 
实 最 简单 的 方法 是 在 Tomcat 的 /webapps/tracking/ 中 创建 一 个 空 文件 ， 比 如 一 个 名 为 “click” 的 空 文件 ， 如 图 11-24 所 示 。 
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图 11-24 ”在 /webapps/tracking/ 中 放 入 名 为 “click” 的 空 文件 



































然后 在 新 的 页 面 list-ma.html 中 添加 一 些 使 用 该 空 文件 的 JavaScript 人 代码， 具体 的 内 容 请 参见 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/list-ma.html 


下 面 的 代码 片段 是 针对 页 面 级 别 数据 的 跟踪 码 : 





// Start: Self-designed tracking code for page loading 
Var contextPath = getContextPath(); 
Var img = new Image(); 
img.src = contextPath + "/click?loadpage=true"; 
/ End: Self-designed tracking code for page loading 








而 下 面 的 片段 则 是 针对 事件 级 别 数据 的 跟踪 码 : 








// Start: Self-designed tracking code for click 
function sendMyAnalytics(e) { 


Var category = e.getAttribute ("data-gaCategory"); 
Var action = e.getAttribute ("data-gaAction"); 
Var label = e.getAttribute ("data-gaLabel"); 

Var value = e.getAttribute ("data-gaValue"); 


Var contextPath = getContextPath(); 

Var img = new Image(); 

img.src = contextPath + "/click?category=" 
+ category + '&action=' + action + '&label=' + label + "&value=" 
+ Value + "&timestamp=" + (new Date()) .valueOf (); 


} 
// End: Self-designed tracking code for click 











从 上 述 的 两 个 代码 片段 可 以 看 出 ， 自 行 设 计 的 跟踪 代码 其 基本 思想 也 是 非常 直观 的 ， 只 需要 访问 刚刚 创建 的 空 文件 并 追加 一 些 参数 即 可 。 而 对 于 日 后 的 分 析 这 些 参数 才 是 关键 ， 因 此 空 文件 的 内 容 和 名 
称 都 无 关 紧要 Bl。 对 于 每 一 次 访问 ， 像 Tomcat 这 样 的 Web 服 务 器 将 自动 地 记录 相应 的 日 志 条 目 。 








之 后 ， 你 仍然 可 以 参照 谷歌 分 析 实践 中 的 Web 服 务 器 进行 搭建 ， 部 署 三 个 Web 服 务 器 上 的 lsit-ma.html 文 件 。 选 择 任何 一 台 机 器 ， 并 访问 其 上 的 list-ma.html 页 ， 同 时 观察 Tomcat 访 问 日 志 
(/logslocalhost_access log.*) 的 变化 。 你 会 发 现 访问 行为 的 记录 都 存放 在 了 Tomcat 的 日 志文 件 中 ， 如 图 11-25 所 示 。 
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国 LICENSE host-manager.2016-12-02.log 
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192,168,1.48 - - [62/Dec/2016:11:44:88 -9896] 

192.168,1.48 - - [982/Dec/2916:11:44:99 -9899] 

192.168.1.48 - - [82/Dec/2816:11:44:10 -9899] thiol he del Cotsen ele Sutoe SS 2 008787856424 HTTP/1.1" 296 - 
192.168.1.48 - ~ [82/Dec/2916:11:44:11 -9868] "GET /tracking/click?category=HMain%20Catalogsaction-Men's%20C lothing%20C lickedElabel=Sport20CoatsEvalue=588tinestanp=1488787851572 HTTP/1.1" 
192.168.1.48 - - [62/Dec/2616:11:44:13 -9899] "GET /tracking/ctick?category=Hains26Catatog&action=kKids'26CLothingw265A20Shoes%26Cticked&tabet=Boys'9%29Shoes&vatue=265timestamp=1486767853158 


192,168,1.48 - - [82/Dec/2016:11:44:14 -6866] "GET /tracking/click?category=Main%28Catalog&action=Men"s%20Clothing%20ClickedS label=T-Shirtsévalue=125timestamp=1488707854204 HTTP/1.1”268 — 
"GET /tracking/click?category=Main%20Catalogsaction=Wonen's%20Clothings20ClickedS label=Coats&value=505timestamp=1480707855453 HTTP/1.1”299 - 
192.168.1.48 -~ -~ [62/Dec/2916:11:44:34 -9866] "GET /tracking/click?category=Main%20Catalogbaction=-Men's%20Clothingh20ClickedS label=Sport%20Coats&value=585t inestamp=1486797874398 HTTP/1.1" 
192,168.1.48 - - 【92/Dec/2916， "GET /tracking/ctick?7category=Malins26Catatogkaction=Women 'SA29CLothings28CLicked&ULabeL=SweaterskvaLUe=25ktimestamp=1489707875422 HTTP/1.1” 280 
"GET /tracking/click?category=Main%20Catalogbaction=Kids '%20Clothing%205%20Shoes%20ClickedSlabel=Girls'%20Clothingsvalue=655t imestasp=1489797876 
”GET /tracking/click?7category=MHain%20Catalogbaction=Kids'%20Clothing%205r20Shoes*%280Clicked& label=Boys '%28Clothingsvalue=285t imestamp=148070; 
192.168.1.48 - - [02/Dec/2016:11:44:38 -9899】 "GET /tracking/click?category=Main%20CatalogSaction=Kids'%20Clothing%205r20Shoes%20ClickedS label=Girls'%20Clothingevalue=655t imestasp=14897971 


图 11-25 使 用 自行 定义 的 跟踪 码 之 后 ，Tomcat 访 问 日 志 的 示例 
你 也 可 以 在 这 里 找到 访问 日 志 的 片段 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/localhost access log.2016-12-02.txt 


2.Flume 的 基本 用 法 
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随 着 访问 日 志 的 生成 ， 我 们 应 该 考虑 如 何 聚集 分 布 在 不 同 Web 服 务 器 上 的 数据 。 让 我 们 先 从 Flume 的 基本 用 法 开始 。 你 可 以 通过 这 个 链接 下 载 并 解压 Flume: 





https://flume.apache.org/download.html 














本 文 使 用 的 版 本 是 1.7.0。 为 方便 起 见 ， 也 可 以 为 Flume 设 置 环境 变量 : 





export FLUME HOME=/Users/huangsean/Coding/apache-flume-1.7.0-bin 
export PATH=$FLUME HOME/bin:$PATH 








将 解压 后 的 Flume 存 放 于 所 有 三 台 Web 服 务 器 上 。 然 后 ， 对 于 每 台 服 务 器 上 的 Flume， 根 据 模板 创建 配置 文件 /conf/flume-conf.properties。 其 核心 的 部 分 如 下 : 





trackingagent .sources = trackingSource 
trackingagent .channels = trackingChannel 
trackingagent .sinks = trackingSink 


# For each one of the sources, the type, spooldir and channels are defined 

trackingAgent .sources.trackingSource.type = spooldir 

trackingAgent .sources .trackingSource.spoolDir = /Users/huangsean/Coding/apache-tomcat-8.5.3/logs copy 
trackingAgent .Sources .trackingSource.includePattern = ^.*access lo0g.*$ 

trackingAgent .sources.trackingSource.channels = trackingChannel 


# Define trackingChannel 

trackingAgent .channels.trackingChannel .type = memory 
trackingAgent .channels.trackingChannel .capacity = 20000 
trackingAgent .channels.trackingChannel .transactionCapacity = file 


# Define trackingSink 

trackingAgent .sinks.trackingSink.type = file roll 

trackingAgent .sinks .trackingSink.sink.directory = /Users/huangsean/Downloads 
trackingAgent .sinks.trackingSink.channel = trackingChannel 

trackingAgent .sinks.trackingSink.rollInterval = 





该 配置 为 tracking 的 任务 定义 了 源头 trackingSource、 通 道 trackingChannel 和 沉淀 器 trackingSink。TrackingSource 的 类 型 是 spooldir， 它 将 访问 Web 服 务 器 上 的 本 地 文件 。 为 了 不 影响 正常 的 
Tomcat 日 志 记 录 ， 我 们 在 测试 的 时 候 另外 备份 了 一 份 日 志 目 录 ， 名 为 “log copy”，trackingSource 将 读 取 这 个 目录 。 同 时 ， 配 置 文件 也 定义 了 所 要 包含 文件 的 名 称 模板 : ^.*access log.*$。 这 样 Flume 
只 会 处 理 用 户 的 访问 日 志 ， 而 不 会 处 理 Tomcat 产 生 的 其 他 日 志 。 而 通道 trackingChannel 是 内 存 型 ， 容 量 为 20000。 沉 淀 器 trackingSink 也 被 设置 为 文件 型 file_roll， 它 将 收集 而 来 的 数据 存放 
在 /Users/huangsean/Downloads 中 ， 每 隔 30 秒 执行 一 次 写 入 。 完 整 的 配置 文件 请 参见 



































https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/flume/conf/flume-conf.properties-localfile 


完成 对 所 有 3 台 机 器 上 的 Flume 配 置 之 后 ， 可 运行 下 列 命令 行 来 启动 所 有 的 Flume 代 理 ， 请 确保 使 用 了 正确 的 代理 名 称 和 配置 文件 名 : 





[huangsean@iMac2015:/Users/huangsean/Coding] flume-ng agent -n trackingAgent -C conf -f conf/flume-conf.properties-localfile -Dflume.root.logger=INFO, console 























如 果 一 切 顺利 ， 你 将 看 到 Flume 处 理 了 Tomcat 服 务 器 的 访问 日 志 目 录 log copy， 并 将 数据 转换 成 了 某 种 格式 ， 然 后 保存 在 指定 的 目录 中 ， 如 图 11-26 所 示 。 已 被 处 理 的 访问 日 志文 件 ， 其 名 称 也 被 
Flume 增 加 了 后 缀 “.COMPLETED” 以 示 完 成 ， 如 图 11-27 所 示 。 
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3.Flume 和 HDFS 的 集成 

















11-26 ”依照 配置 ， 每 30 秒 Flume 就 会 在 指定 的 目录 中 写 入 收集 而 来 的 数据 


Today 


catalina.2016-12-02.log 

catalina.out 

host-manager.2016-12-02.log 

localhost_access |0g.2016-12-02 .txt.COMPLETED 
localhost.2016-12-02.log 
manager.2016-12-02.log 


Yesterday 


catalina.2016-12-01.log 
host-manager.2016-12-01.log 
localhost_access_log.2016-12-01.txt.COMPLETED 
localhost.2016-12-01.log 
manager.2016-12-01.log 








11-27 被 处 理 的 日 志文 件 被 加 上 了 .COMPLETED 的 后 级 














当然 ,我 们 不 能 总 是 将 日 志 数 据 保持 在 本 地 ， 还 需要 进行 分 布 式 的 扩展 。 在 本 小 节 和 下 一 小 节 中 ， 你 将 分 别 了 解 到 如 何 将 数据 传输 到 Hadoop 的 HDFS， 以 及 如 何 通 过 Hive 分 析 HDFS 中 的 数据 。 由 于 这 
种 策略 是 比较 复杂 的 ， 我 们 在 图 11-28 中 绘制 了 整体 的 框架 。Flume 和 HDFS 将 被 部 署 在 所 有 三 台 机 器 之 上 。Flume 的 代理 将 使 用 HDFS 的 沉淀 器 与 HDFS 协 同 工 作 。 而 Hive 只 需要 部 署 在 某 台 机 器 上 即 可 ， 例 
如 iMac2015， 因 为 一 台 机 器 就 足以 运行 Hive 的 SQL 脚本 并 启动 相应 的 Map Reduce 任 务 了 。 
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11-28 使 用 Flume+HDFS+Hive 的 框架 























在 让 Flume 访 问 HDFS 之 前 ， 我 们 需要 可 用 的 Hadoop 集 群 。 第 1 章 已 经 详细 地 阐述 了 相关 的 内 容 ， 如 有 必要 读者 可 以 重 温 一 下 。 接 下 来 ， 我 们 可 以 让 Flume 将 采集 到 的 日 志 数 据 传输 到 HDFS。 创 建 一 个 
新 的 Flume 配 置 文件 并 编辑 其 内 容 : 











# For each one of the sources, the type, spooldir and channels are defined 
trackingAgent .Sources .trackingSource.type = spooldir 

trackingAgent .sources .trackingSource.spoolDir = /Users/huangsean/Coding/apache-tomcat-8.5.3/logs copy 
trackingAgent .Sources .trackingSource.includePattern = ^.*access 10g.*$ 

trackingAgent .sources.trackingSource.channels = trackingChannel 


# Define trackingChannel 

trackingAgent .channels.trackingChannel .type = memory 
trackingAgent .channels.trackingChannel .capacity = 20000 
trackingAgent .channels.trackingChannel .transactionCapacity = file 


# Define trackingSink 

trackingagent .sinks.trackingSink.type = hdfs 

trackingagent .sinks.trackingSink.hdfs.path = hdfs:// iMac2015:9000/flume-log 
trackingAgent .sinks.trackingSink.hdfs.fileType = DataStream 
trackingAgent .sinks.trackingSink.hdfs.writeType = text 
trackingAgent .sinks.trackingSink.hdfs.filePrefix = tracking 
trackingAgent .sinks.trackingSink.hdfs.fileSuffix = .log 
trackingAgent .sinks.trackingSink.hdfs.rollSize = 120000000 
trackingAgent .sinks.trackingSink.hdfs.rollCount = 500000 
trackingAgent .sinks.trackingSink.hdfs.request-timeout = 30000 
trackingAgent .sinks.trackingSink.channel = trackingChannel 
trackingAgent .sinks.trackingSink.rollInterval = 30 








从 上 述 配置 内 容 的 片段 可 以 看 出 ， 源 头 trackingSource 和 通道 trackingChannel 和 之 前 基本 保持 一 致 。 主 要 的 区 别 在 于 trackingSink 的 部 分 : 其 中 你 需要 指定 core-site.xml 中 所 设置 的 HDFS 路 径 。 同 
时 ， 我 们 使 用 了 前 缀 filePrefix 和 后 缀 fileSuffix， 为 新 生成 的 数据 文件 修改 名 称 。 而 rollsize 和 rollCount 用 于 确定 何 时 将 数据 写 入 HDFS， 这 些 需 要 根据 你 的 应 用 合理 设置 。 过 大 的 值 会 在 Flume 系 统 宕 机 时 产 
生 丢 失 数据 的 风险 ， 而 过 小 的 值 则 可 能 会 导致 采集 和 存储 性 能 的 下 降 。 完 整 的 配置 文件 请 参见 : 
























































https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/flume/conf/flume-conf.properties-hdfs 




















采用 这 个 配置 文件 ， 重 新 启动 每 台 Web 服 务 器 上 的 Flume 代 理 ， 例 如 : 











[huangsean@iMac2015:/Users/huangsean/Coding]flume-ng agent -n trackingAgent -c conf -f conf/flume-conf.properties-hdfs -Dflume.root.logger=INFO, console 














稍 后 你 就 会 看 到 一 些 数据 被 导入 HDFS， 如 图 11-29 所 示 。 将 这 些 数据 下 载 到 本 地 并 进行 观察 ， 你 会 发 现 熟悉 的 Tomcat 访 问 日 志 。 如 果 被 测试 的 日 志 足够 大 ， 或 者 不 断 有 新 的 数据 产生 ， 那 么 你 将 会 看 
到 不 断 有 新 的 文件 写 入 HDFS。 同 时 ，Web 服 务 器 中 已 被 处 理 的 访问 日 志文 件 其 名 称 也 会 被 Flume 加 上 “.COMPLETED” 的 后 缀 。 到 目前 为 止 ，Flume 和 HDFS 的 整合 都 取得 了 阶段 性 的 成 果 。 
































Si ~ Last Modified 













12/272016, 10:03:32 PM 









Group Sie Last Modified 








107.15 KB 12212016, 10.0402 PM 





huangsean Supergroup 


File information - tracking.1480745006647.log 


Downloed 


Biock MD: 1073741825 
Biock Pool ID: BP.-1851561350.492.168.1.48-1480739269177 


Generation Stamp: 1001 
Size: 109720 
Availability; 


图 11-29 日 志 数 据 被 成 功 导 入 HDFS 中 ， 并 拥有 两 个 副本 


4. 利 用 Hive 分 析 HDFS 里 的 数据 





对 于 批 处 理 模 式 的 分 析 而 言 ， 目 前 剩 下 的 唯一 技术 点 就 是 通过 Hive 来 分 析 HDFS 中 的 日 志 数 据 。 首 先 ， 通 过 如 下 链接 下 载 并 解压 Hive 包 ， 本 文采 用 的 版 本 是 2.1.0: 





https://hive.apache.org/downloads.html 





将 其 环境 变量 设置 为 : 





export HIVE HOME=/Users/huangsean/Coding/apache-hive-2.1.0-bin 
export PATH=$HIVE HOME/bin :$PATH 








然后 进入 Hive 的 主 目录 /conf/， 依 照 模板 生成 并 编辑 hive-env.sh， 在 其 中 设置 HADOOP_HOME、JAVA_HOME 和 HIVE_HOME 等 : 








# Set HADOOP HOME to point to a Specific hadoop install directory 
export HADOOP HOME=$ {HADOOP HOME} 


export JAVA HOME=${JAVA HOME} 
export HIVE HOME=${HIVE HOME} 


# Hive Configuration Directory can be controlled by: 
export HIVE CONF DIR=${HIVE HOME}/conf 





完整 的 文件 请 参看 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/hive/conf/hive-env.sh 


然后 运行 如 下 命令 格式 化 Hive 的 元 数据 : 





[huangsean@iMac2015:/Users/huangsean/Coding] schematool -dbType derby -initSchema 





最 后 启动 Hive: 





[huangsean@iMac2015:/Users/huangsean/Coding]hive 





一 旦 Hive 正 常 启动 ， 就 可 以 用 如 下 命令 查看 当前 有 哪些 表 : 








hive> show tables; 














然后 ， 利 用 如 下 命令 建立 外 部 表 : 














hive> CREATE EXTERNAL TABLE accesslog2016 (ip STRING, skipl STRING, skip2 STRING, timepoint STRING, skip3 STRING, action STRING, url STRING, protocol STRING， status STRING, late 
> ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY ' '; 











其 中 ， 我 们 跳 过 了 几 个 本 案例 没有 使 用 的 Tomcat 访 问 日 志 字段 ， 保 留 了 url 等 最 为 重要 的 几 项 信息 。 执 行 成 功 后 将 显示 如 下 耗 时 等 信息 : 








OK 
Time taken: 0.085 seconds 








再 将 之 前 Flume 收 集 到 的 HDFS 的 数据 ， 加 载 到 所 创建 的 Hive 表 中 ， 选 中 tracking.1480745006647.log 这 个 日 志文 件 : 

















hive> load data inpath '/flume-log/tracking.1480745006647.10g' into table accesslog2016; 





执行 成 功 后 显示 如 下 耗 时 、 处 理 文件 的 大 小 等 信息 : 





Loading data to table default.accessl0g2016 
OK 
Time taken: 0.118 seconds 




















请 注意 ， 你 可 以 将 不 同 的 数据 集 多 次 加 载 到 同一 个 Hive 表 中 ， 来 获得 完整 的 日 志 集 合 。 现 在 ， 就 让 我 们 使 用 SQL 来 检查 数据 是 否 已 成 功 导 入 Hive: 

















hive> SELECT COUNT (*) FROM accessl0g2016; 
Query ID=huangsean 20161225013754 5f2ef8a6-4af7-9a51-09206003e134 
Total jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer (in bytes): 
set hive.exec.reducers.bytes.per.reducer=<number> 
In order to limit the maximum number of reducers: 
set hive.exec.reducers .max=<number> 
In order to set a constant number of reducers: 
set mapred.reduce.tasks=<number> 
Starting Job = job 1480843768982 0003, Tracking URL = http:// iMac2015:8088/proxy/application 1480843768982_0003 
Kill Command = /Users/huangsean/Coding/hadoop-2.7.3/bin/hadoop job -kill job 1480843768982 0003 
Hadoop job information for Stage-1: number of mappers: 2; number of reducers: 1 
2016-12-04 01:38:37,353 Stage-1 map = 0%, reduce = 0% 





2016-12-04 01:38:52,720 Stage-1 map = 50%, reduce = 0% 
2016-12-04 01:39:02,509 Stage-1l map = 100%, reduce = 0% 
2016-12-04 01:39:11,753 Stage-1 map = 100%, reduce = 100% 


Ended Job = job 1480843768982 _0003 

MapReduce Jobs Launched: 

Job 0: Map: 2 Reduce: 1 HDFS Read: 343673 HDFS Write: 103 SUCCESS 
Total MapReduce CPU Time Spent: 0 msec 

OK 

4561 

Time taken: 81.501 seconds, Fetched: 1 row(s) 





从 上 述 代码 中 可 以 看 出 ，Hive 启 动 了 Hadoop 的 MapReduce 任 务 来 执行 查询 “SELECT COUNT (*) FROM accesslog2016” ， 最 后 执行 得 到 的 结果 是 共计 4561 条 记录 。 剩 下 的 步骤 不 难 理解 ， 我 们 
另 一 个 select 语 句 统计 童装 类 商品 被 点 击 了 多 少 次 ， 以 此 来 估计 该 类 产品 对 整体 业务 的 影响 : 

















hive> SELECT COUNT (*) from accesslog2016 where url like '%tracking/click?%Kids%'; 
Query ID=huangsean 20161225014316_6b499552-a404-4662-8bbe-3b19dcq85a62 
Total jobs = 1 六 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer (in bytes): 

set hive.exec.reducers.bytes.per.reducer=<number> 
In order to limit the maximum number of reducers: 

set hive.exec.reducers .max=<number> 
In order to set a constant number of reducers: 

set mapred.reduce.tasks=<number> 
Starting Job = job 1480843768982 0004, Tracking URL = http:// iMac2015:8088/proxy/application 1480843768982 0004 
Kill Command = /Users/huangsean/Coding/hadoop-2.7.3/bin/hadoop job -kill job 1480843768982 0004 
Hadoop job information for Stage-1: number of mappers: 2; number of reducers: 1 
2016-12-04 01:43:53,882 Stage-1 map = 0%, reduce = 0% 
2016-12-04 01:44:09,239 Stage-1 map = 50%, reduce = 0% 
2016-12-04 01:44:19,110 Stage-l map = 100%, reduce = 0% 
2016-12-04 01:44:28,344 Stage-1 map = 100%, reduce = 1 
Ended Job = job 1480843768982 0004 
MapReduce Jobs Launched: 
Job 0: Map: 2 Reduce: 1 HDFS Read: 343688 HDFS Write: 102 SUCCESS 
Total MapReduce CPU Time Spent: 0 msec 
OK 
424 
Time taken: 76.219 seconds, Fetched: 1 row(s) 


记 户 




















通过 之 前 两 次 的 统计 ， 我 们 可 以 预 估 大 约 9.3% 的 用 户 流量 访问 了 童装 类 产品 。 以 此 类 推 ， 在 实际 业务 场景 中 我 们 还 可 以 完成 很 多 KPI 指标 的 计算 ， 例 如 各 渠道 流量 绝对 值 、 流 量 占 比 、 到 详情 页 或 添加 
购物 车 的 转化 率 ， 等 等 。 由 于 Hive 支 持 很 多 类 SQL 的 操作 ， 因 此 入 门 简单 ， 功 能 强大 ， 对 于 批量 处 理 的 报表 而 言 绝 对 是 一 大 利器 。 
































在 之 前 的 简介 章节 中 ， 我 们 提 到 了 Hive 也 是 通过 MapReduce 来 实现 计算 的 ， 此 时 可 以 到 Hadoop 的 可 视 化 界面 进行 确认 : 


http:Wimac2015: 8088/cluster 


你 将 看 到 和 图 11-30 类 似 的 结果 ， 有 些 任务 已 经 完成 ， 或 者 仍 在 进行 中 。 所 有 这 些 工作 都 是 由 Hive 提 交 的 。 





11.5.5 ”自主 设计 实战 之 Flume、Kafka 和 Storm 的 整合 


1.Flume 和 Kafka 的 集成 


Flume、HDFS 和 Hive 的 搭配 对 于 批量 处 理 来 说 是 比较 合适 的 。 可 是 ， 对 于 实时 性 更 强 的 需求 ， 例 如 实时 仪表 盘 这 样 的 应 用 


制 和 Storm 流 式 处 理 的 集成 。 这 部 分 也 是 本 章 最 难 理解 的 技术 难点 所 在 ， 为 此 我 们 先 来 看 看 其 整体 的 架构 概述 。 如 图 
使 用 Kafka 消 息 队列 的 沉淀 器 进行 工作 。 消 息 通 过 Flume 进 入 Kafka 中 间 件 之 后 ， 然 后 再 经 由 Storm 进 行 流 式 处 理 ， 这 样 ， 消 息 的 异步 机 制 可 以 起 到 缓冲 的 作用 

















， 必 须要 加 速 整体 的 数据 处 理 速度 。 在 这 里 我 们 采用 了 Flume、Kafka 消 息 机 
11-31 所 示 、 这 里 Flume、Kafka 和 storm 都 将 部 署 在 同样 的 三 台 机 器 上 。Flume 代 理 将 
， 保 护 Storm 集 群 不 被 突如其来 的 海量 数据 打 



































垮 。 我 们 还 需要 编写 一 些 必要 的 代码 ， 用 java 的 jar 包 来 构建 Storm 的 拓扑 结构 。 














1 1. 收 集 











首先 ， 我 们 要 建立 ZooKeeper 集 群 。ZooKeeper 是 一 个 为 分 布 式 应 
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图 11-31 使 用 Flume+Kafka+Storm 的 框架 
































提供 一 致 性 服务 的 软件 ， 其 提供 的 功能 包括 : 配置 维护 、 域 名 服务 、 分 布 式 同步 、 组 服务 等 。Apache Kafka 和 Storm 都 是 使 


























ZooKeeper 来 进行 分 布 式 管理 的 。 通 过 如 下 链接 下 载 和 解压 ZooKeeper 的 发 行 版 ， 本 文采 用 的 版 本 是 3.4.9: 


https://zookeeper.apache.org/releases.html 





其 环境 变量 设置 如 下 : 





export ZO00KEEPER HOME=/Users/huangsean/Coding/zookeeper-3.4.9 
export PATH=$2Z00KEEPER HOME/bin :$PATH 

















仍然 使 用 手头 上 的 三 台 机 器 ， 进 入 ZooKeeper 主 目录 的 conf 目 录 ， 修 改 zoo.cfg 文 件 ， 加 入 服务 器 节点 的 名 称 和 端 


由 

















server.48=iMac2015:2888:3888 


SerVer.28=MacBookPro2013:2888:3888 
SerVer.78=MacBookPro2012:2888:3888 





这 些 配置 内 容 要 在 所 有 服务 器 节点 上 生效 。 在 zoo.cfg 中 有 一 项 配置 是 dataDir: 





dataDir=/Users/huangsean/Coding/zookeeper-3.4.9/data/ 











如 图 11-32 所 示 ， 在 其 所 指定 的 数据 目录 下 ， 创 建文 件 myid。 





Today Today Today 


BD apache-hive-2.1.0-bin Ma conf 


MM apache-tomcat-8.5.3 U data » Eversion-2 bp 
MM kafka_2.11-0.10.1.0 MN version-2 zookeeper_server.pid 
zookeeper-3.4.9 | zookeeper.out 

i zookeeper-3.4.9.tar 





August 
Previous 7 Days MM bin 


Ml data 人 build.xml 
MN hadoop-2.7.3 CHANGES.txt 
MN contrib 


Previous 30 Days 国 dist-maven 


国 apache-flume-1.7.0-bin Ml docs 
让 apache-hiv....0-bin.tar.gz 多 ivyxml 


MN apache-storm-1.0.2 多 ivysettings.xml 





图 11-32 ”在 dataDir 所 指定 的 目录 中 创建 myid 











文件 myid 的 内 容 为 一 个 正 整数 ， 用 来 唯一 标识 当前 服务 器 节点 ， 因 此 不 同 机 器 的 数值 不 能 设置 得 相同 。 这 里 使 用 机 器 IP 地 址 的 最 后 两 位 ， 以 方便 记忆 和 管理 : 
iMac2015 192.168.1.48 48 

MacBookPro2013 192.168.1.28 28 

MacBookPro2012 192.168.1.78 78 

完整 的 ZooKeeper 配 置 文件 样 例 可 以 参考 : 
https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/zookeeper/conf/zoo.cfg 


最 后 ， 在 每 台 服 务 器 上 ， 运 行 ZooKeeper 主 目录 /bin/ 中 的 zkserver.sh， 逐 台 启 动 ZooKeeper: 





[huangsean@iMac2015:/Users/huangsean/Coding]zkServer.sh start 
[huangsean@MacBookPro2013: /Users/huangsean/Coding]zkServer.sh start 
[huangsean@MacBookPro2012:/Users/huangsean/Coding]zkServer.sh start 





返回 的 结果 显示 启动 成 功 : 





JMX enabled by default 
Using config: /Users/huangsean/Coding/zookeeper-3.4.9/bin/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/../conf/zoo.cf 
Starting zookeeper http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/... STARTED 





然后 依次 查看 3 台 机 器 的 状态 : 





[huangsean@iMac2015: /Users/huangsean/Coding]zkServer.sh status 
[huangsean@MacBookPro2013:/Users/huangsean/Coding]zkServer.sh status 
[huangsean@MacBookPro2012:/Users/huangsean/Coding]zkServer.sh status 








其 中 两 台 机 器 返回 的 结果 表明 它们 是 跟随 者 (Follower) : 





JMX enabled by default 
Using config: /Users/daobao.yang/bigdata/zookeeper-3.4.6/bin/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/../conf/zoc 
Mode: follower 





另 一 台 返 回 的 结果 表明 它 是 领袖 (Leader) : 





JMX enabled by default 
Using config: /Users/daobao.yang/bigdata/zookeeper-3.4.6/bin/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16351/0EBPS/Text/../conf/zoc 
Mode: leader 





您 还 可 以 检查 端口 2181， 这 是 ZooKeeper 使 用 的 默认 端口 。 这 样 3 台 机 器 组 成 的 ZooKeeper 集 群 就 部 署 完毕 了 ， 接 下 来 我 们 可 以 在 其 基础 上 ， 搭 建 Kafka 集 群 用 于 实时 消息 的 发 送 内 。Kafka 可 以 通过 如 
下 链接 下 载 : 


https://kafka.apache.org/downloads 








本 文 使 用 的 版 本 是 2.11， 解 压 之 后 设置 环境 变量 如 下 : 











export KAFKA HOME=/Users/huangsean/Coding/kafka 2.11-0.10.1.0 
export PATH=$KAFKA HOME/bin:$PATH 














对 于 每 台 机 器 上 的 Kafka， 编辑 Kafka 主 目录 /config/ 中 的 server.properties 如 下 : 














9092 的 设置 也 很 关键 ， 稍 后 Flume 的 沉淀 器 需要 上 


broker.id=0 

Zookeeper.connect= iMac2015:2181,MacBookPro2013:2181,MacBookPro2012:2181 
listeners=PLAINTEXT:// iMac2015:9092 

advertised.listeners=PLAINTEXT:// iMac2015:9092 


将 zookeeper.connect 配 置 为 当前 ZooKeeper 的 设置 。 需 要 注意 的 是 ，broker.id 和 ZooKeeper 的 myid 类 似 ， 在 不 同 的 机 器 上 需要 不 一 样 的 jd， 通常 是 从 0 开始 逐个 递增 的 非 负 整数 。 而 iMac2015 : 























到 这 个 信息 。 完 整 的 Kafka 配 置 文件 样 例 可 以 参考 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/kafka/conf/server.properties 


修改 配置 完毕 之 后 ， 就 可 以 按照 下 面 的 命令 依次 启动 每 台 服 务 器 上 的 Kafka 服 务 了 : 





[huangsean@iMac2015: /Users/huangsean/Coding] kafka-server-start.sh -daemon /Users/huangsean/Coding/kafka 2.11-0.10.1.0/config/server.properties 




















然后 创建 名 为 tracking_accesslog topic 的 消息 topic， 这 里 使 用 了 2 个 副本 和 3 个 分 


值 不 能 大 于 Kafka 服 务 的 数量 ， 否 则 启动 可 能 会 失败 : 





区 。 这 里 的 副本 和 分 














区 符合 分 布 式 系统 中 通用 的 概念 。 通 常 ， 它 们 会 帮 你 实现 更 好 的 扩展 性 。 需 要 注意 副本 参数 的 数 











[huangsean8iMac2015:/Users/huangsean/Coding]kafka-topics.sh --create --topic tracking accesslog topic --replication-factor 2 --partitions 3 --zookeeper iMac2015:2181 





最 后 展示 下 目前 创建 的 tracking_accesslog_topic， 以 及 其 分 区 和 副本 的 状态 : 


[huangsean@iMac2015: /Users/huangsean/Coding] kafka-topics.sh --describe --topic tracking accesslog topic --replication-factor 2 --partitions 3 --zookeeper iMac2015:2181 


Topic:accesslog-topic PartitionCount:3 ReplicationFactor:2 Configs: 
Topic: tracking accesslog topic Partiticon; 0 Leader: 0 Replicas: 
Ters Orl 

Topic: tracking accesslog topic Partition: 1 Leader: 1 Replicas: 
Topic: tracking accesslog topic Partition: 2 Leader: 2 Replicas: 











为 了 验证 消息 集群 是 否 成 功 ， 可 以 使 用 Kafka 自 带 的 kafka-console-producer.sh 和 kafka-console-consumer.sh 进 行 消息 发 送 和 接收 的 测试 。 

















np 

















虽然 准备 的 过 程 有 点 长 ， 不 过 下 面 马 上 就 可 以 进入 本 节 的 主题 了 : 让 Flume 将 采集 到 的 








志 数据 传输 到 Kafka。 创 建 一 个 新 的 Flume 配 置 文件 并 编辑 其 内 容 : 





# For each one of the sources, the type, spooldir and channels are defined 


trackingAgent .Sources .trackingSource.type = spooldir 


trackingAgent .sources .trackingSource.spoolDir = /Users/huangsean/Coding/apache-tomcat-8.5.3/logs copy 


trackingAgent .sources.trackingSource.includePattern = ^.*access 10g.*$ 
trackingAgent .sources.trackingSource.channels = trackingChannel 


# Define trackingChannel 

trackingAgent .channels.trackingChannel .type = memory 
trackingAgent .channels.trackingChannel .capacity = 20000 
trackingAgent .channels.trackingChannel .transactionCapacity = file 


# Define trackingSink 


trackingagent .Sinks .trackingSink.type = org.apache.flume.sink.kafka.KafkaSink 


trackingAgent .sinks.trackingSink.kafka.bootstrap.servers = iMac2015:9092 
trackingagent .sinks.trackingSink.kafka.topic = tracking accesslog topic 
trackingAgent .sinks.trackingSink.kafka.flumeBatchSize = 3 

trackingAgent .sinks.trackingSink.kafka.producer.acks=1 

trackingAgent .sinks.trackingSink.channel = trackingChannel 

trackingAgent .sinks.trackingSink.rollInterval = 30 





从 上 述 配置 内 容 的 片段 可 以 看 出 ， 源 头 trackingSource 和 通道 trackingChannel 与 之 前 的 配置 继续 保持 一 致 。 主 要 的 区 别 还 是 在 trackingSink 的 部 分 ， 其 中 你 需要 指定 Kafka server.properties 中 所 设 


置 的 listeners， 以 及 消息 的 topic。 完 整 的 配置 文件 请 参见 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/flume/conf/flume-conf.properties-kafka 




















采用 这 个 配置 文件 ， 重 新 启动 每 台 Web 服 务 器 上 的 Flume 代 理 ， 例 如 : 











[huangsean@iMac2015:/Users/huangsean/Coding] flume-ng agent -n trackingAgent -c conf -f conf/flume-conf.properties-kafka -Dflume.root.logger=INFO, console 





稍 后 你 就 会 看 到 一 些 数据 被 导入 Kafka 的 消息 队列 。 与 HDFS 有 所 不 同 ， 我 们 不 能 通过 | 


























形 化 的 用 户 界面 直接 查看 Kafka 的 消息 。 不 过 ， 可 以 通过 如 下 的 命令 来 检视 : 





DumpLogSegments --file /tmp/kafka-logs/tracking accesslog topic-0/000000 
00000000000000.1og --print-data-log 


huangsean@iMac2015:/Users/huangsean/Coding] kafka-run-class.sh kafka.tools. 




















[ 











11-33 展 示 了 某 台 机 器 上 的 结果 示意 图 。 





offset: 298 position: 46129 CreateTime: -1 isvalid; true payloadsize: 


offset: 299 position: 46238 CreateTime: 
offset: 366 position: 46344 CreateTime: 


-1 isvalid: true payloadsize: 
-1 isvalid: true payloadsize: 


75 magic: 1 compresscodec: NoCompressionCodec 
72 magic: 1 compresscodec: NoCompressionCodec 
72 magic: 1 compresscodec: NoCompressionCodec 














图 11-33 日 志 数 据 被 存储 为 Kafka 中 的 消 


和 之 前 类 似 ， 如 果 被 测试 的 日 志 足 够 大 ， 或 者 不 断 有 新 的 数据 产生 ， 那 么 你 将 看 到 不 断 有 新 的 文件 写 入 Kafka。 同 时 ， 
上 “.COMPLETED” 的 后 级 。 到 目前 为 止 ，Flume 和 Kafka 的 整合 都 取得 了 阶段 性 的 成 果 。 


2.Kafka 和 Storm 的 集成 


这 个 方案 最 后 的 关键 之 处 就 是 Kafka 和 Storm 的 整合 。Storm 可 以 通过 如 下 链接 下 载 : 


http://storm.apache.org/ 








本 文 使 用 的 Storm 版 本 是 1.0.2， 解 压 之 后 设置 环境 变量 如 下 : 








必 





Web 服 务 器 中 已 经 被 处 理 的 访问 日 志文 件 其 名 称 也 会 被 Flume 加 





export STORM HOME=/Users/huangsean/Coding/apache-storm-1.0.2 


export PATH=5STORM HOME/bin:$PATH 


在 每 台 机 器 上 ， 进 入 Storm 主 目录 /conf/， 并 修改 storm.yaml 的 配置 文件 如 下 : 





storm.zookeeper. servers: 
—- "iMac2015" 
— "MacBookPro2013" 
- "MacBookPro2012" 
# 
storm.local.dir: "/tmp/storm/data" 


nimbus.seeds: ["iMac2015", "MacBookPro2013", "MacBookPro2012"] 
ui.port: 7788 


drpc.servers: 
- "iMac2015" 
— "MacBookPro2013" 
— "MacBookPro2012" 









































其 中 最 主要 的 配置 是 storm.zookeeper.servers， 将 其 修改 为 目前 ZooKeeper 的 设置 。 另 外 ， 由 于 Tomcat 默 认 使 用 了 8080 端 口 ， 而 Nginx 默 认 使 用 了 80 端 口 ， 所 以 将 ui.port 修 改 为 新 的 端口 ， 例 如 
7788。Storm 的 完整 配置 示例 可 以 参考 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/blob/master/UserBehaviorTracking/SelfDesign/storm/conf/storm.yaml 


Storm 集 群 的 主 节 点 称 为 Nimbus， 从 节点 称 为 Supervisor， 现 在 我 们 在 iMac2015 和 MacBookPro2012 上 启动 Nimbus 服 务 ， 互 为 备份 : 





[huangsean@iMac2015:/Users/huangsean/Coding]nohup storm nimbus & 
[huangsean@MacBookPro2012:/Users/huangsean/Coding]nohup storm nimbus & 





在 全 部 3 台 机 器 上 启动 Supervisor 服 务 ， 启 动 所 有 的 计算 资源 : 





[huangsean@iMac2015:/Users/huangsean/Coding]nohup storm supervisor & 
[huangsean@MacBookPro2012:/Users/huangsean/Coding]nohup storm supervisor & 
[huangsean@MacBookPro2013:/Users/huangsean/Coding]nohup storm supervisor & 





最 后 在 iMac2015 和 MacBookPro2012 上 启动 可 视 化 UI 的 服务 ， 便 于 我 们 浏览 集群 的 状态 : 





[huangsean@iMac2015:/Users/huangsean/Coding]nohup storm ui & 
[huangsean@MacBookPro2012:/Users/huangsean/Coding]nohup storm ui & 





Storm 启 动 成 功 之 后 ， 你 可 以 通过 iMac2015 或 MacBookPro2012 上 的 可 视 化 Ul 查看 集群 的 状态 ， 注 意 端口 是 之 前 配置 的 7788: 
http://imac2015: 7788/index.html 


http://macbookpro2012: 7788/index.html 








图 11-34 显 示 了 目前 三 台 机 器 上 所 建 Storm 集 群 的 概况 。 























现在 ， 实 时 性 分 析 只 差 最 后 也 是 最 关键 的 一 步 : 利用 Storm 的 Spout 读 取 Kafka 消 息 并 进行 流 式 计算 。 好 在 1.0.2 这 个 版 本 的 Storm 已 经 自 带 了 一 组 Kafka 集 成 插件 可 直接 使 用 。 我 们 可 以 采用 Java 编 码 来 
自 定义 Storm 的 Spout 和 Bolt 类 ， 持 续 统计 各 类 按钮 点 击 的 次 数 、 页 面 加载 的 次 数 ， 等 等 ， 实 现 具 体 的 处 理 逻 辑 ， 最 终 得 到 用 户 行为 的 实时 报告 。 让 我 们 先 从 main 函 数 入 手 ， 了 解 整体 的 代码 框架 : 


















































Storm UI 


Cluster Summary 


Supervisors 
3 


Version 


Nimbus Summary 


Showing 1t030f3 onties 


Topology Summary 


Supervisor Summary 


国电 
494e15dc-f29d-4c76-9cd4-89fb21affofc 
0613537c-9ac0-4c50-989c-db86de6872d0 
claf2ab7-5b59-4961-af32-0ee7397bc6d9 


Showing 1 to 3 of 3 entries 


Nimbus Configuration 


Show|20 $enties 








Key 
图 11-34 ”Storm 集 群 概况 
public static void main( String[] args ) throws Exception 
{ 
String zks = "iMac2015:2181,MacBookPro2012:2181,MacBookPro2013:2181"7 
String topic = "tracking accesslog topic"; 
String zkRoot = "/storm"; 
String id = "click"; 
BrokerHosts brokerHosts = new ZkHosts (zks); 
SpoutConfig spoutConf = new SpoutConfig (brokerHosts, topic, zkRoot, id); 
spoutConf.scheme = new SchemeAsMultiScheme (new StringScheme () ) 
spoutConf .zkServers = Arrays.asList (new String[] {"iMac2015", "MacBookPro2012", 


"MacBookPro2013"}); 


spoutConf.zkPort = 2181; 


TopologyBuilder builder = new TopologyBuilder (); 


builder.setSpout ("Kafka-reader", new KafkaSpout (spoutConf), 4); 


builder.setBolt ("click-extractor", new KafkaTrackingExtractor(), 2).shuffle 
Grouping ("Kafka-reader"); 
builder.setBolt ("click-counter", new ClickCounter()).fieldsGrouping ("click- 


extractor", new Fields("click")); 


Config conf = new Config(); 


String name = MyKafkaLogTopology.class.getSimpleName (); 


conf.put (Config.NIMBUS HOST, "iMac2015"); 
Conf .setNumWorkers (3); 


StormSubmitter.submitTopologyWithProgressBar (name, conf, builder.create 


Topology ()); 





首先 ， 我 们 设置 了 spoutConf， 包 括 ZooKeeper 服 务 的 配置 (这 里 仍然 是 iMac2015: 2181、MacBookPro2012: 2181、MacBookPro2013: 2181) 、Kafka 消 息 的 主题 tracking_access topic、 


ZooKeeper 中 Storm 配 置 存 放 的 路 径 /storm ， 等 等 。 然 后 在 TopologyBuilder 的 实例 builder 中 ， 就 可 以 使 用 spoutConf 创 建 Kafkaspout， 让 Storm 读 取 Kafka 中 的 日 


来 同步 处 理 它们 ， 这 里 我 们 定义 了 两 个 方法 : click-extractor 和 click-counter， 分 别 























志 记 录 的 核心 记录 抽取 和 数量 的 统计 。 先 看 下 click-extractor 的 代码 : 








于 























志 数 据 。 读 取 这 些 数 据 时 ， 还 祝 


要 bolt 





public static class KafkaTrackingExtractor extends BaseRichBolt { 


private static final long serialVersionUID = 1L1; 
Private OutputCollector collector; 


df QOverride 


public void prepare (Map stormConf, TopologyContext context, OutputCollector collector) { 


// TODO Auto-generated method stub 
this.collector = collector; 


// QOverride 
public void execute (Tuple input) { 
// TODO Auto-generated method stub 
String line = input.getString (0); 
System.out .println ("Receive[Kafka -> extractor]" + line); 


if (line.contains("/tracking/click?")) { 
collector.emit (input, new Values("total click", 1)); 
collector.ack (input); 


if (line.contains ("action=Kids")) { 
collector.emit (input, new Values ("Kids click", 1)); 


} else if (line.contains("action=Men")) { 
collector.emit (input, new Values ("Mens click", 1)); 

} else if (line.contains ("action=Women")) 工 
collector.emit (input, new Values ("Womens click", 1)); 


} 


} else { 
collector.emit (input, new Values("total click", 0)); 
} 


} 
public void declareOutputFields (OutputFieldsDeclarer declarer) { 


// TODO Auto-generated method stub 
declarer.declare (new Fields ("click", “count")); 




















要 任务 是 接收 Kafka-reader 这 个 spout 所 传送 的 数据 ， 仅 仅 关注 和 click 相 关 的 行为 日 志 ， 并 按照 女装 、 男 装 和 童装 的 商品 类 别 进行 分 组 ， 向 下 一 个 bolt (click-counter) 继续 发 出 分 组 后 的 数据 。 
而 click-counter 的 代码 如 下 : 

















public static class ClickCounter extends BaseRichBolt { 


private static final long serialVersionUID = 1L7 
Private OutputCollector collector; 
private Map<String, AtomicIinteger> counterMap; 


public void prepare (Map stormConf, TopologyContext context, OutputCollector collector) { 
// TODO Auto-generated method stub 
this.collector = collector; 
this.counterMap = new HashMap<String, AtomicInteger>(); 

} 


public void execute (Tuple input) { 
// TODO Auto-generated method stub 
String word = input.getString (0); 
int count = input.getInteger(1); 


System.out .println ("Receive[extractor -> counter]" + word + " : "+ count); 
AtomicIinteger ai = this.counterMap.get (word); 
if (ai = null) { 


ai = new AtomicInteger(); 
this.counterMap.put (word, ai); 


} 

ai.addAndGet (count); 

collector.ack (input); 

System.out .Println("Check statistics map: " + this.counterMap); 


AtomicInteger aiTotal = counterMap.get ("total click"); 
RALomicInteger aiKids = counterMap.get ("Kids click"); 
AtomicInteger aiMens = counterMap.get ("Mens click"); 
AtomicInteger aiWomens = counterMap.get ("Womens click"); 

int total click = (aiTotal =—= null) ? 0 ; aiTotal.intValue(); 


int kids click = (aiKids == null) ? 0 : aiKids.intValue(); 
int mens click = (aiMens 一 null) ? 0 : aiMens.intValue(); 
int womens click = (aiWomens 一 null) ? 0 : aiWomens.intValue(); 


if (total click != 0) { 
System.out .Println (String.format ("Kids click ratio is $%.3f", 
((double) kids click) / total click)); 
System.out .Println (String.format ("Mens click ratio is %.3f", 
( (double) mens click) / total click)); 
System.out .Println(String.format ("Womens click ratio is %.3f", 
((double) womens click) / total click)); 


: 


public void cleanup() { 
System.out .Println("The final results:"); 
Iterator<Entry<String, Atomicinteger>> iter = this.counterMap. 
entrySet () .iterator () 7 
while (iter.hasNext()) { 
Entry<String, AtomicIinteger> entry = iter.next (); 
System.out .Println (entry.getKey() + "\t:\t" + entry.getValue() .get ()); 


public void declareOutputFields (OutputFieldsDeclarer declarer) { 
// TODO Auto-generated method stub 
declarer.declare (new Fields ("click", “count")); 





上 述 代 码 的 











要 任务 是 按照 不 同 商品 的 类 别 进行 聚集 和 统计 ， 实 时 地 计算 出 每 个 分 类 点 击 的 占 比 。 完 整 的 代码 示例 可 以 参考 如 下 的 Maven 工 程 ， 你 可 以 将 其 下 载 并 导入 到 Eclipse 的 workspace 中 : 


https://github.com/shuang790228/BigDataArchitectureAndAlgorithm/tree/master/UserBehaviorTracking/SelfDesign/storm-kafka 





在 该 Maven 工 程 的 pom.xml 文 件 中 还 要 设置 必需 的 storm 和 Kafka 依 赖 包 : 





<!-- https://mvnrepository.coryVartifact/org.apache.storm/storm-core --> 
<dependency> 
<groupId>org.apache.storm</groupId> 
<artifactId>storm-core</artifactId> 
<version>1.0.2</version> 
<scope>provided</scope> 
</dependency> 


<dependency> 

<groupId>org.apache.storm</groupId> 
<artifactId>storm-kafka</artifactId> 

<version>1.0.2</version> 

</dependency> 


<!-- https://mnrepository.com/artifact/org.apache.kafka/kafka 2.11 --> 
<dependency> 
<groupId>org.apache. kafka</groupId> 
<!-- <artifactId>kafka 2.11</artifactId> 
<version>0.9.0.0</version> --> 
<artifactId>kafka 2.9.2</artifactId> 
<version>0.8.2.1</version> 
<exclusions> 
<exclusion> 
<groupId>org.apache.zookeeper</groupId> 
<artifactId>zookeeper</artifactId> 
</exclusion> 
<exclusion> 
<groupId>10g4j</groupId> 
<artifactId>1og4j</artifactId> 
</exclusion> 
</exclusions> 
</dependency> 











你 可 能 还 有 一 个 疑问 : 如 何在 Storm 集 群 上 运行 这 个 Java 程 序 呢 ?你 所 要 做 的 就 是 运行 Maven build 或 Maven install 构 建 一 个 jar 包 ， 如 图 11-35 所 示 。 然 后 ， 使 用 如 下 的 命令 将 编译 后 的 jar 包 提交 给 
Storm 集 群 : 

















[huangsean@iMac2015: /Users/huangsean/Coding] storm jar /Users/huangsean/Coding/eclipse-jee-neon/workspace/storm-kafka/target/storm-kafka-0.0.1-SNAPSHOT.jar Storm Kafka.storm kaf 



































如 果 一 切 顺 利 ， 拓 扑 的 jar 包 将 不 停 地 运行 ， 进 行 流 式 计算 ， 直 到 你 主动 将 其 停止 。 在 Supervisor 机 器 的 Storm 主 目录 /logs/workers-artifacts/ 中 ， 你 会 发 现 如 图 11-36 所 示 的 worker.log 日 志文 件 。 打 


开 它 ， 你 会 看 到 来 自 Java 代 码 的 一 些 输出 。 图 


效果 。 














11-37 显 示 了 click-extractor 输 出 结果 的 一 些 样 例 。 图 11-38 则 显示 了 click-counter 输 出 结果 的 样 例 ， 各 商品 分 类 的 点 击 不 断 地 发 生 着 变化 ， 达 到 了 实时 分 析 的 











现在 ， 我 们 已 经 介绍 了 自主 设计 方案 的 所 有 要 点 。 值 得 一 提 的 是 ， 不 同 的 解决 方案 可 能 不 会 相互 冲突 。 设 计 混 合 的 架构 是 完全 可 能 的 ， 例 如 结合 批量 处 理 系统 和 实时 系统 ， 甚 至 是 结合 自主 设计 的 方案 











和 第 三 方 的 解决 方案 ， 如 图 11-39 所 示 。 如 果 开 发 成 本 及 系统 性 能 在 可 以 接受 的 范围 之 内 ， 那 么 这 样 做 的 好 处 在 于 可 以 加 强 不 同系 统 间 的 相互 校 输 ， 提 升 数据 的 可 靠 性 。 
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国 Package Explorer x | 书包 =o 口 四 AppTestjava 加 MyKafkaLogTopology.java 2 


Pp Wmachine_transiation 


135 
1368 public static void mainC String 口 args ) throws Exception 
137 { 
138 String zks = "iMac2015:2181,MacBookPro2812:2181,MacBookPro2013:2181"; 
139 String topic = "tracking_accesslog_topic"; 
140 String zkRoot = "/storm"; 
String id m "click"; 


BrokerHosts brokerHosts = new ZkHosts(zks); 

SpoutConfig spoutConf = new SpoutConfigCbrokerHosts, topic, zkRoot, id. 
spoutConf .Scheme = new SchemeAsMuLtiSchemeCnew StringScheme()); 
spoutConf .zkServers = Arrays.asList(new String[] {"iMac2015", "MacBook! 
spoutConf .zkPort = 2181; 


TopologyBuilder builder = new TopologyBuilder(); 
builder.setSpoutC"Kafka-reader", new KafkaSpout(CspoutConf), 4); 
builder.setBolt("click-extractor", new KafkaTrackingExtractor(), 2).sh 
builder.setBolt("click-counter", new ClickCounter()).fieldsGrouping("c¢ 
Config conf = new Config(); 


String name = MyKafkalLogTopology.class.getSimpleName(); 


conf .put(Config.NIMBUS-HOST, "iMac2015"); 
conf .setNumWorkersC3); 
StormSubmitter. submitTopologyWithPprogressBar(name, conf, builder.creat 


m2 1 Maven build 

me 2 Maven build... 

me 3 Maven clean 

m2 4 Maven generate-sources 
9 5 Maven install 

m2 6 Maven test 


Run Configurations... 





-35 通过 Eclipse 中 的 Maven 插 件 构建 jar 包 


Today 


Today 


LU MyKafkaLo...481009241 _ ] gc.log.0.current 

本 worker.log 
worker.log.err 
worker.log.metrics 
worker.log.out 
worker.pid 

人 workeryaml 


Previous 30 Days 


MM MyKafkaLo...479855975 
MM MyKafkaLo...479858010 
MM MyKafkaLo...479859763 
MM MyKafkaLo...479860202 





Receive[Kafka -> 
Receive[Kafka -> 
Receive [Kafka -> 


图 11-36 ”worker.log 记 录 了 来 自 Java 代 码 的 输出 


extractor]192.168,1,.28 - - [02/Dec/2016:11:22:52 -0800] "GET /tracking/click?loadpage=true HTTP/1.0" 2 
extractor]0:0:0:0:0:0:0:1 - - [18/Nov/2016:12:24:57 -0896] "GET /tracking/list.html HTTP/1.1" 200 2782 
extractor]192.168.1.48 - ~ [02/Dec/28016:11:23:85 -9899] "GET /tracking/\list-ga.html HTTP/1.1" 304 -~ 


Receive[extractor -> counter]total_click : 0 


Receive [Kafka -> 
Receive [Kafka -> 
Receive [Kafka -> 
Check statistics 


extractor]192.168.1.48 - - [02/Dec/2016:11:23:15 -0890] "GET /tracking/list-ga.html HTTP/1.1" 200 5328 
extractor]0:0:0:0:0:0:0:1 - -~ [18/Nov/2816:13:49:41 -98699] "GET /tracking/list.html HTTP/1.1" 288 4576 
extractor]192.168.1.48 - ~ [02/Dec/2016:11:23:31 -0890] "GET /tracking/click?category=Main%20Catalog&s 
map: {total_click=0} 


Receive[extractor -> counter]total_click : 9 


Receive [Kafka -> 
Receive [Kafka -> 
Receive [Kafka -> 
Check statistics 
Receive [Kafka -> 
Receive [Kafka -> 
Recelive [Kafka -> 


extractor]192.168.1.48 - - [92/Dec/2916:11:25:11 -9800] “GET /tracking/click?loadpage=true HTTP/1.1” 2 
extractor]0:0:0:0:0:0:0:1 - - [18/Nov/2816:13:59:16 -896] "GET /tracking/list.html HTTP/1.1" 200 4569 
extractor]192.168,.1,48 - - [62/Dec/2916:11:39:24 -0896] "GET /favicon,ico HTTP/1.1"”266 21639 

map: {total_click=0} 

extractor]192,168.1.48 - - [02/Dec/2016:11:30:25 -98060] "GET /tracking/click?category=Main%20Catalog&a 
extractor]0:0:0:0:0:0:0:1 - -~ [18/Nov/2016:13:52:35 -90800] "GET /tracking/list.html HTTP/1.1" 200 453 
extractor]192.168.1.48 - - [02/Dec/2016:11:31:81 -08860] "GET /favicon,ico HTTP/1.1" 200 21639 





图 11-37 click-extractor 的 输出 


Receive [extractor -> counter]total_click : 1 

Check statistics map: {Mens_click=14, Womens_click=35, total_click=99, Kids_click=10} 
Kids click ratio is 0.101 

Mens click ratio is 0.141 

Womens click ratio is 0.354 

Receive [extractor -> counter]Mens_click : 1 

Check statistics map: {Mens_click=15, Womens_click=35, total_click=99, Kids_click=10} 
Kids click ratio is 0.101 

Mens click ratio is 0.152 

Womens click ratio is 0.354 

Receive[extractor -> counter]total_click : 1 

Check statistics map: {Mens_click=15, Womens_click=35, total_click=100, Kids_click=10} 
Kids click ratio is 0.100 

Mens click ratio is 0.150 

Womens click ratio is 0.350 

Receive [extractor -> counter]Womens_click : 1 

Check statistics map: {Mens_click=15, Womens_click=36, total_click=100, Kids_click=10} 
Kids click ratio is 0.100 

Mens click ratio is 0.150 

Womens click ratio is 0.360 





图 11-38 click-countor 的 输出 
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图 11-39 行为 跟踪 系统 的 混合 架构 设计 
[1] https:/ /www.google.com/analytics/ 
[2] https://support.google.com/analytics#topic=3544906 
DB] 当然 ， 你 可 以 根据 业务 的 需要 ， 为 该 文件 的 内 容 和 名 称 赋予 特定 的 含义 。 
[4] Kafka 本 身 自 带 一 个 ZooKeepet 的 发 行 版 。 考 虑 到 部 署 的 模块 化 ， 以 及 之 后 Storm 的 搭建 ， 这 里 我 们 没有 使 用 自 带 的 ZooKeeper。 


11.6 ”更 多 的 思考 











“感谢 小 明 哥 这 么 详细 的 讲解 ， 看 来 狐 似 简单 的 用 户 行为 分 析 ， 还 囊括 了 不 少 学 问 呢 。 我 还 有 个 问题 ， 那 就 是 可 不 可 以 让 前 端 直接 将 行为 数据 发 送 到 Kafka， 而 无 须 等 待 Flume 收 集 呢 ? 这样 则 不 是 更 





快 ?“" 











“很 好 的 问题 ， 技 术 上 确实 是 可 行 的 。 不 过 ， 这 也 意味 着 还 需要 设计 和 实现 额外 的 代码 ， 将 前 端的 行为 日 志 直 接 发 送 到 Kafka， 增 加 了 系统 的 复杂 性 和 维护 成 本 。 还 有 一 种 可 能 更 好 的 做 法 是 ， 自 己 实 


























现 一 个 套 日 志 记录 的 AP1， 让 前 端 或 其 他 客户 端 往 其 中 写 入 数据 。 只 要 API 接 口 保持 不 变 ， 那 么 使 用 方 的 成 本 就 可 以 最 小 化 。 与 此 同时 ，API 内 部 的 实现 也 可 以 不 断 地 演化 ， 保 证 来 自前 端的 数据 可 以 和 各 种 
处 理 方式 无 颖 的 对 接 ， 这 点 和 第 4、5 章 提 到 的 搜索 API 层 相仿 。 当 然 ， 在 生产 环境 中 也 许 不 存在 最 优秀 的 架构 模板 ， 而 是 需要 根据 实际 业务 的 需求 ， 具 体 情况 具体 分 析 ， 找 到 最 合适 的 路 线 。” 






























































后 记 


时 光 社 往 ， 岁 月 如 梭 ， 转 眼 间 又 是 一 个 春天， 夕阳 透 过 薄 薄 的 窗帘 ， 懒 懒散 散 地 酒 入 屋内 。 当 一 继 光 线 偷偷 地 让 到 杨 大 宝 的 眼角 时 ， 他 睁 开 了 腊 胸 的 双眼 。 一 看 挂钟 ， 已 经 是 下 午 5 点 了 。 创 业 一 年 多 以 
来 ， 他 和 他 的 团队 就 没有 好 好 休息 过 。 在 今天 凌 展 公司 大 促 贺 满 结束 之 后 ， 他 也 第 一 次 申请 了 休假 ， 一 方面 是 想 调整 身心 ， 另 一 方面 也 是 想 对 自己 创业 的 一 年 进行 总 结 。 这 一 觉 ， 大 宝 睡 得 很 踏实 。 


起 床 后 ， 大 宝 冲 了 一 杯 咖啡 ， 斜 坐 在 躺椅 上 ， 您 悠 地 回顾 了 工作 、 生 活 和 奋斗 的 点 点 滴 滴 。 他 深 深 感到 自己 在 大 数据 领域 的 积累 正在 逐渐 增多 。 当 然 ， 大 宝 绝 不 会 忘记 引领 自己 进入 大 数据 领域 的 导 
师 : 表 哥 黄 小 明 。 在 《大 数据 架构 商业 之 路 》 的 历险 中 ， 大 宝 从 一 开始 的 大 数据 讶 ， 到 对 基础 知识 的 了 解 ， 再 到 技术 方案 的 整体 设计 ， 都 离 不 开 小 明 的 悉心 指导 。 而 在 《大 数据 架构 和 算法 实现 之 路 》 的 这 
次 历险 中 ， 小 明 更 是 分 享 了 许多 宝贵 的 实践 经 验 和 心得 。 可 以 说 ， 没 有 小 明 的 付出 ， 大 宝 和 他 的 团队 就 不 能 撑 起 整个 公司 的 业务 发 展 。 一 想到 这 里 ， 大 宝 写 了 一 封 长 长 的 感谢 信 ， 告 诉 小 明 他 是 如 何 学 以 致 
用 ， 将 公司 的 业务 持续 扩大 的 。 


第 二 天 ， 大 宝 收 到 了 小 明 的 回信 : 


好 久 不 见 ， 最 近 可 好 ? 


听 说 你 们 公司 发 展 得 很 顺利 ， 我 也 很 高 兴 。 看 来 我 之 前 关于 大 数据 的 经 验 之 谈 ， 还 是 起 了 一 定 的 作用 。 我 也 看 到 ， 你 能 活 学 活用 ， 为 公司 设计 的 几 个 方案 相当 不 错 ， 其 中 不 少 地 方 都 体现 了 你 的 创新 精 
神 ， 难 能 可 贵 ! 加 油 吧 ， 年 轻 人 ， 相 信 你 们 的 前 景 会 更 美好 ， 说 不 定 哪 天 你 会 为 你 们 公司 上 市 而 项 钟 呢 。 


至 于 我 ， 目 前 还 要 在 美国 继续 深造 ， 学 成 之 后 ， 再 回 到 祖国 ， 毕 竟 中 国 互联 网 的 机 会 还 有 很 多 ， 和 希望 到 时 候 我 们 还 有 合作 的 机 会 1 ” 
大 宝 看 完 微微 一 笑 ， 回 复 了 5 个 字 “等 你 好 消息 ! ” 


(全 书 完 ) 


